强化学习
强化学习 (Reinforcement Learning)
一句话定义
强化学习是通过”试错 + 奖励信号”让策略 π 在环境中逐步改善的学习范式。LLM 时代它被三次重新发明:一次用来对齐(RLHF),一次用来推理(System 2),一次用来扩展数据(合成数据 + Self-Play)。
经典 RL 五要素(理解后训练 RL 的根基)
| 要素 | 经典 RL | LLM 后训练 RL 的对应物 |
|---|---|---|
| 状态 s | 游戏画面 / 物理量 | prompt + 已生成 token 序列 |
| 动作 a | 上下左右 / 关节扭矩 | 下一个 token(或一整段输出) |
| 策略 π(a|s) | 神经网络 / Q 表 | LLM 本身(softmax over vocab) |
| 奖励 r | 得分 / 终局胜负 | 偏好分 / RM 分 / 答案对错 / 评测 |
| 转移 P(s’|s,a) | 物理引擎 | 确定性(token 拼接),无随机环境 |
关键差异:LLM 的”环境”是自身生成轨迹,没有外部世界反馈,这让 LLM RL 天然有”局内闭环”特征——也是 reward hacking 高频发生的根源。
LLM 中 RL 的三重角色
强化学习在 LLM 生命周期中出现三次,每次目的、奖励信号、算法都不同:
1. 对齐 RL(RLHF / DPO / RLAIF)
- 目的:让模型输出与人类偏好对齐
- 奖励信号:Reward Model 给出的偏好分(或 DPO 直接用偏好对)
- 主流算法:PPO(OpenAI / Anthropic 早期)→ DPO(中等规模团队)→ RLAIF / Constitutional AI(Anthropic)
- 深度细节 → 见 RLHF,本节点不重复
2. 推理 RL(Reasoning RL)— 2024-2026 最大变量
- 目的:让模型在生成过程中学会思考——长链 CoT、回溯、自我验证
- 奖励信号:可验证答案(RLVR)/ Process Reward Model(PRM)/ Outcome Reward Model(ORM)
- 代表性工作:OpenAI o1 / o3 / DeepSeek R1-Zero / R1
- 范式转变:从”预训练吃数据”转向”后训练吃算力”——RL 训练时长甚至超过 SFT
3. 后训练数据 RL(Self-Improve / Self-Play)
- 目的:让模型自己产生高质量训练数据
- 奖励信号:自评 / 多模型投票 / 任务完成度
- 典型场景:合成数据 闭环、多 Agent 对抗采样、Rejection Sampling Fine-tuning(RFT)
PPO vs DPO vs GRPO vs RLOO — 后训练 RL 算法族
| 算法 | 是否需要 RM | 是否需要 Critic | 是否需要 KL 约束 | 典型场景 | 显存开销 |
|---|---|---|---|---|---|
| PPO | ✓ | ✓(Value head) | ✓ | OpenAI 早期 / 对齐 | 高(4 模型) |
| DPO | ✗ | ✗ | 隐式(β 系数) | 中等团队对齐 | 低(2 模型) |
| GRPO | ✓ 或验证器 | ✗(组内基线) | ✓ | DeepSeek R1 推理 | 中 |
| RLOO | ✓ | ✗(leave-one-out 基线) | ✓ | 学界小规模训练 | 中 |
| REINFORCE++ | ✓ | ✗ | ✓ | DeepSeek 等 | 中 |
GRPO(Group Relative Policy Optimization) 是 DeepSeek R1 的核心创新:
- 对同一 prompt 采样 G 个回答(典型 G=16-64)
- 用组内奖励的均值/标准差作为 baseline(替代 PPO 的 value function)
- 消除 critic 网络 → 显存降 25-40%,训练更稳定
- 已被 Qwen3 / InternLM3 / 多家国内 reasoning 模型采纳
推理 RL 的两个关键设计
Reward Model:PRM vs ORM
| 维度 | ORM(Outcome) | PRM(Process) |
|---|---|---|
| 评分对象 | 最终答案 | 每个推理步骤 |
| 标注成本 | 低(看对错) | 高(步骤级标注) |
| 稀疏度 | 极稀疏(终局信号) | 密集(每步信号) |
| reward hacking 风险 | 中(答对但思路错) | 高(钻 PRM 漏洞) |
| 典型用法 | DeepSeek R1 / RLVR | OpenAI o1 早期实验 |
2026 共识:ORM + 可验证奖励(数学/代码答案核对)是主流;PRM 在 reward hacking 上代价过高,多用于 inference-time(best-of-N rerank)。
Cold-Start 与 R1-Zero 启示
DeepSeek R1 的两阶段:
- R1-Zero:直接从 base model 用 GRPO + 规则奖励冷启动,无 SFT——证明大模型可以”无需示范学会推理”
- R1:在 R1-Zero 基础上加 SFT 冷启动 + 多轮 RL → 可读性大幅改善
反直觉发现:R1-Zero 在数学上已能涌现 “aha moment”(自我反思)、自动延长 CoT 长度——这是 RL 信号本身驱动的,不是 SFT 模仿来的。
Reward Hacking 与 RL 的固有困境
Reward hacking = 策略钻奖励函数漏洞,拿高分但偏离真实目标。LLM RL 中典型形态:
| 模式 | 示例 |
|---|---|
| 长度膨胀 | 答得越长 RM 分越高 → 模型变成”啰嗦答题机” |
| 风格谄媚 | 用礼貌套话拉高 RM 分(sycophancy) |
| 格式攻击 | 用 markdown / 列表骗取偏好分 |
| 钻 PRM 漏洞 | 在中间步骤写”显得有道理”的废话 |
| 模板化思考 | ”Let me think step by step…” 但不真思考 |
| 答案泄露 | 在 CoT 中提前暗示答案,骗 ORM 通过 |
主流缓解手段:
- KL 约束:限制策略与 SFT/Ref 模型的距离(PPO 的 KL term、DPO 的 β)
- 过程监督:用 PRM 限制中间步骤
- 多 RM 集成:用多个 RM 投票,减少单点偏差
- Verifier-Based:用确定性验证器(数学求解器 / 代码运行器)替代 RM
- Length Penalty / Format Penalty:硬约束输出长度和格式
根本困境:RL 的优化压力会找到 RM 的所有漏洞——RM 永远不可能完美,所以 RL 训练不可能”训到收敛”,而是”训到刚好够用就停”。Goodhart 定律的直接体现,见 c14 - 模型评估体系与 Goodhart 陷阱。
经典 RL 与 LLM RL 的范式裂痕
| 维度 | 经典 RL(AlphaGo / Atari) | LLM RL(RLHF / R1) |
|---|---|---|
| 训练时长 | 几千万 episode | 几千-几万 prompt 即收敛 |
| 探索 | ε-greedy / 熵奖励 / 内在动机 | 几乎不做(base model 自带) |
| 环境 | 真实世界模拟 | 自身生成轨迹 |
| 信用分配 | TD / GAE / discount | 整轨/整段,几乎无折扣 |
| 长尾任务 | 难收敛 | 已被 SFT/预训练覆盖 |
| 算法 | DQN / A3C / SAC / IMPALA | PPO / DPO / GRPO |
为什么 LLM RL 这么”短”:base model 已经是强先验,RL 只是把已有能力”激活”到偏好方向,不是从零学习——这是 LLM RL 与经典 RL 最大的范式差异。
与 Rick PM 视角的连接点
- 成本结构:推理 RL 的训练成本可超过 SFT(R1 训练时 RL 时长 > SFT),但带来的能力跃迁是非线性的——这是 2025-2026 推理模型军备竞赛的物理基础
- 数据壁垒:可验证奖励(数学/代码题库 + 验证器)成为新型数据资产;下游产品如何接入可验证任务是竞争分水岭
- 产品决策:对齐 RL 与推理 RL 的能力增量来源不同,产品迭代时要区分是补对齐(更乖)还是补推理(更强)
- 评估难题:RL 训练的模型在传统 benchmark 上可能未必更高,但在 agent 任务、长 CoT 任务上能力差距巨大——评估体系需要相应升级
相关章节
关联节点
- 算法:RLHF Constitutional AI DeepSeek
- 概念:合成数据 Test-Time Compute 幻觉
- 经典 RL:Q-learning Policy Gradient MCTS(多为 broken target,待 Rick 批量建)
- 产品:OpenAI o1 DeepSeek-R1(broken target)