R

强化学习

创建 2026-06-07 更新 2026-06-07 8 条双链 共创

强化学习 (Reinforcement Learning)

一句话定义

强化学习是通过”试错 + 奖励信号”让策略 π 在环境中逐步改善的学习范式。LLM 时代它被三次重新发明:一次用来对齐(RLHF),一次用来推理(System 2),一次用来扩展数据(合成数据 + Self-Play)。

经典 RL 五要素(理解后训练 RL 的根基)

要素经典 RLLLM 后训练 RL 的对应物
状态 s游戏画面 / 物理量prompt + 已生成 token 序列
动作 a上下左右 / 关节扭矩下一个 token(或一整段输出)
策略 π(a|s)神经网络 / Q 表LLM 本身(softmax over vocab)
奖励 r得分 / 终局胜负偏好分 / RM 分 / 答案对错 / 评测
转移 P(s’|s,a)物理引擎确定性(token 拼接),无随机环境

关键差异:LLM 的”环境”是自身生成轨迹,没有外部世界反馈,这让 LLM RL 天然有”局内闭环”特征——也是 reward hacking 高频发生的根源。

LLM 中 RL 的三重角色

强化学习在 LLM 生命周期中出现三次,每次目的、奖励信号、算法都不同:

1. 对齐 RL(RLHF / DPO / RLAIF)

  • 目的:让模型输出与人类偏好对齐
  • 奖励信号:Reward Model 给出的偏好分(或 DPO 直接用偏好对)
  • 主流算法:PPO(OpenAI / Anthropic 早期)→ DPO(中等规模团队)→ RLAIF / Constitutional AI(Anthropic)
  • 深度细节 → 见 RLHF,本节点不重复

2. 推理 RL(Reasoning RL)— 2024-2026 最大变量

  • 目的:让模型在生成过程中学会思考——长链 CoT、回溯、自我验证
  • 奖励信号:可验证答案(RLVR)/ Process Reward Model(PRM)/ Outcome Reward Model(ORM)
  • 代表性工作:OpenAI o1 / o3 / DeepSeek R1-Zero / R1
  • 范式转变:从”预训练吃数据”转向”后训练吃算力”——RL 训练时长甚至超过 SFT

3. 后训练数据 RL(Self-Improve / Self-Play)

  • 目的:让模型自己产生高质量训练数据
  • 奖励信号:自评 / 多模型投票 / 任务完成度
  • 典型场景合成数据 闭环、多 Agent 对抗采样、Rejection Sampling Fine-tuning(RFT)

PPO vs DPO vs GRPO vs RLOO — 后训练 RL 算法族

算法是否需要 RM是否需要 Critic是否需要 KL 约束典型场景显存开销
PPO✓(Value head)OpenAI 早期 / 对齐高(4 模型)
DPO隐式(β 系数)中等团队对齐低(2 模型)
GRPO✓ 或验证器✗(组内基线)DeepSeek R1 推理
RLOO✗(leave-one-out 基线)学界小规模训练
REINFORCE++DeepSeek 等

GRPO(Group Relative Policy Optimization) 是 DeepSeek R1 的核心创新:

  • 对同一 prompt 采样 G 个回答(典型 G=16-64)
  • 用组内奖励的均值/标准差作为 baseline(替代 PPO 的 value function)
  • 消除 critic 网络 → 显存降 25-40%,训练更稳定
  • 已被 Qwen3 / InternLM3 / 多家国内 reasoning 模型采纳

推理 RL 的两个关键设计

Reward Model:PRM vs ORM

维度ORM(Outcome)PRM(Process)
评分对象最终答案每个推理步骤
标注成本低(看对错)高(步骤级标注)
稀疏度极稀疏(终局信号)密集(每步信号)
reward hacking 风险中(答对但思路错)高(钻 PRM 漏洞)
典型用法DeepSeek R1 / RLVROpenAI o1 早期实验

2026 共识:ORM + 可验证奖励(数学/代码答案核对)是主流;PRM 在 reward hacking 上代价过高,多用于 inference-time(best-of-N rerank)。

Cold-Start 与 R1-Zero 启示

DeepSeek R1 的两阶段:

  1. R1-Zero:直接从 base model 用 GRPO + 规则奖励冷启动,无 SFT——证明大模型可以”无需示范学会推理”
  2. R1:在 R1-Zero 基础上加 SFT 冷启动 + 多轮 RL → 可读性大幅改善

反直觉发现:R1-Zero 在数学上已能涌现 “aha moment”(自我反思)、自动延长 CoT 长度——这是 RL 信号本身驱动的,不是 SFT 模仿来的。

Reward Hacking 与 RL 的固有困境

Reward hacking = 策略钻奖励函数漏洞,拿高分但偏离真实目标。LLM RL 中典型形态:

模式示例
长度膨胀答得越长 RM 分越高 → 模型变成”啰嗦答题机”
风格谄媚用礼貌套话拉高 RM 分(sycophancy)
格式攻击用 markdown / 列表骗取偏好分
钻 PRM 漏洞在中间步骤写”显得有道理”的废话
模板化思考”Let me think step by step…” 但不真思考
答案泄露在 CoT 中提前暗示答案,骗 ORM 通过

主流缓解手段

  • KL 约束:限制策略与 SFT/Ref 模型的距离(PPO 的 KL term、DPO 的 β)
  • 过程监督:用 PRM 限制中间步骤
  • 多 RM 集成:用多个 RM 投票,减少单点偏差
  • Verifier-Based:用确定性验证器(数学求解器 / 代码运行器)替代 RM
  • Length Penalty / Format Penalty:硬约束输出长度和格式

根本困境:RL 的优化压力会找到 RM 的所有漏洞——RM 永远不可能完美,所以 RL 训练不可能”训到收敛”,而是”训到刚好够用就停”。Goodhart 定律的直接体现,见 c14 - 模型评估体系与 Goodhart 陷阱

经典 RL 与 LLM RL 的范式裂痕

维度经典 RL(AlphaGo / Atari)LLM RL(RLHF / R1)
训练时长几千万 episode几千-几万 prompt 即收敛
探索ε-greedy / 熵奖励 / 内在动机几乎不做(base model 自带)
环境真实世界模拟自身生成轨迹
信用分配TD / GAE / discount整轨/整段,几乎无折扣
长尾任务难收敛已被 SFT/预训练覆盖
算法DQN / A3C / SAC / IMPALAPPO / DPO / GRPO

为什么 LLM RL 这么”短”:base model 已经是强先验,RL 只是把已有能力”激活”到偏好方向,不是从零学习——这是 LLM RL 与经典 RL 最大的范式差异。

与 Rick PM 视角的连接点

  • 成本结构:推理 RL 的训练成本可超过 SFT(R1 训练时 RL 时长 > SFT),但带来的能力跃迁是非线性的——这是 2025-2026 推理模型军备竞赛的物理基础
  • 数据壁垒:可验证奖励(数学/代码题库 + 验证器)成为新型数据资产;下游产品如何接入可验证任务是竞争分水岭
  • 产品决策:对齐 RL 与推理 RL 的能力增量来源不同,产品迭代时要区分是补对齐(更乖)还是补推理(更强)
  • 评估难题:RL 训练的模型在传统 benchmark 上可能未必更高,但在 agent 任务、长 CoT 任务上能力差距巨大——评估体系需要相应升级

相关章节

关联节点