强化学习 (Reinforcement Learning)

一句话定义

强化学习是通过”试错 + 奖励信号”让策略 π 在环境中逐步改善的学习范式。LLM 时代它被三次重新发明：一次用来对齐（RLHF），一次用来推理（System 2），一次用来扩展数据（合成数据 + Self-Play）。

经典 RL 五要素（理解后训练 RL 的根基）

要素	经典 RL	LLM 后训练 RL 的对应物
状态 s	游戏画面 / 物理量	prompt + 已生成 token 序列
动作 a	上下左右 / 关节扭矩	下一个 token（或一整段输出）
策略 π(a\|s)	神经网络 / Q 表	LLM 本身（softmax over vocab）
奖励 r	得分 / 终局胜负	偏好分 / RM 分 / 答案对错 / 评测
转移 P(s’\|s,a)	物理引擎	确定性（token 拼接），无随机环境

关键差异：LLM 的”环境”是自身生成轨迹，没有外部世界反馈，这让 LLM RL 天然有”局内闭环”特征——也是 reward hacking 高频发生的根源。

LLM 中 RL 的三重角色

强化学习在 LLM 生命周期中出现三次，每次目的、奖励信号、算法都不同：

1. 对齐 RL（RLHF / DPO / RLAIF）

目的：让模型输出与人类偏好对齐
奖励信号：Reward Model 给出的偏好分（或 DPO 直接用偏好对）
主流算法：PPO（OpenAI / Anthropic 早期）→ DPO（中等规模团队）→ RLAIF / Constitutional AI（Anthropic）
深度细节 → 见 RLHF，本节点不重复

2. 推理 RL（Reasoning RL）— 2024-2026 最大变量

目的：让模型在生成过程中学会思考——长链 CoT、回溯、自我验证
奖励信号：可验证答案（RLVR）/ Process Reward Model（PRM）/ Outcome Reward Model（ORM）
代表性工作：OpenAI o1 / o3 / DeepSeek R1-Zero / R1
范式转变：从”预训练吃数据”转向”后训练吃算力”——RL 训练时长甚至超过 SFT

3. 后训练数据 RL（Self-Improve / Self-Play）

目的：让模型自己产生高质量训练数据
奖励信号：自评 / 多模型投票 / 任务完成度
典型场景：合成数据闭环、多 Agent 对抗采样、Rejection Sampling Fine-tuning（RFT）

PPO vs DPO vs GRPO vs RLOO — 后训练 RL 算法族

算法	是否需要 RM	是否需要 Critic	是否需要 KL 约束	典型场景	显存开销
PPO	✓	✓（Value head）	✓	OpenAI 早期 / 对齐	高（4 模型）
DPO	✗	✗	隐式（β 系数）	中等团队对齐	低（2 模型）
GRPO	✓ 或验证器	✗（组内基线）	✓	DeepSeek R1 推理	中
RLOO	✓	✗（leave-one-out 基线）	✓	学界小规模训练	中
REINFORCE++	✓	✗	✓	DeepSeek 等	中

GRPO（Group Relative Policy Optimization） 是 DeepSeek R1 的核心创新：

对同一 prompt 采样 G 个回答（典型 G=16-64）
用组内奖励的均值/标准差作为 baseline（替代 PPO 的 value function）
消除 critic 网络 → 显存降 25-40%，训练更稳定
已被 Qwen3 / InternLM3 / 多家国内 reasoning 模型采纳

推理 RL 的两个关键设计

Reward Model：PRM vs ORM

维度	ORM（Outcome）	PRM（Process）
评分对象	最终答案	每个推理步骤
标注成本	低（看对错）	高（步骤级标注）
稀疏度	极稀疏（终局信号）	密集（每步信号）
reward hacking 风险	中（答对但思路错）	高（钻 PRM 漏洞）
典型用法	DeepSeek R1 / RLVR	OpenAI o1 早期实验

2026 共识：ORM + 可验证奖励（数学/代码答案核对）是主流；PRM 在 reward hacking 上代价过高，多用于 inference-time（best-of-N rerank）。

Cold-Start 与 R1-Zero 启示

DeepSeek R1 的两阶段：

R1-Zero：直接从 base model 用 GRPO + 规则奖励冷启动，无 SFT——证明大模型可以”无需示范学会推理”
R1：在 R1-Zero 基础上加 SFT 冷启动 + 多轮 RL → 可读性大幅改善

反直觉发现：R1-Zero 在数学上已能涌现 “aha moment”（自我反思）、自动延长 CoT 长度——这是 RL 信号本身驱动的，不是 SFT 模仿来的。

Reward Hacking 与 RL 的固有困境

Reward hacking = 策略钻奖励函数漏洞，拿高分但偏离真实目标。LLM RL 中典型形态：

模式	示例
长度膨胀	答得越长 RM 分越高 → 模型变成”啰嗦答题机”
风格谄媚	用礼貌套话拉高 RM 分（sycophancy）
格式攻击	用 markdown / 列表骗取偏好分
钻 PRM 漏洞	在中间步骤写”显得有道理”的废话
模板化思考	”Let me think step by step…” 但不真思考
答案泄露	在 CoT 中提前暗示答案，骗 ORM 通过

主流缓解手段：

KL 约束：限制策略与 SFT/Ref 模型的距离（PPO 的 KL term、DPO 的 β）
过程监督：用 PRM 限制中间步骤
多 RM 集成：用多个 RM 投票，减少单点偏差
Verifier-Based：用确定性验证器（数学求解器 / 代码运行器）替代 RM
Length Penalty / Format Penalty：硬约束输出长度和格式

根本困境：RL 的优化压力会找到 RM 的所有漏洞——RM 永远不可能完美，所以 RL 训练不可能”训到收敛”，而是”训到刚好够用就停”。Goodhart 定律的直接体现，见 c14 - 模型评估体系与 Goodhart 陷阱。

经典 RL 与 LLM RL 的范式裂痕

维度	经典 RL（AlphaGo / Atari）	LLM RL（RLHF / R1）
训练时长	几千万 episode	几千-几万 prompt 即收敛
探索	ε-greedy / 熵奖励 / 内在动机	几乎不做（base model 自带）
环境	真实世界模拟	自身生成轨迹
信用分配	TD / GAE / discount	整轨/整段，几乎无折扣
长尾任务	难收敛	已被 SFT/预训练覆盖
算法	DQN / A3C / SAC / IMPALA	PPO / DPO / GRPO

为什么 LLM RL 这么”短”：base model 已经是强先验，RL 只是把已有能力”激活”到偏好方向，不是从零学习——这是 LLM RL 与经典 RL 最大的范式差异。

与 Rick PM 视角的连接点

成本结构：推理 RL 的训练成本可超过 SFT（R1 训练时 RL 时长 > SFT），但带来的能力跃迁是非线性的——这是 2025-2026 推理模型军备竞赛的物理基础
数据壁垒：可验证奖励（数学/代码题库 + 验证器）成为新型数据资产；下游产品如何接入可验证任务是竞争分水岭
产品决策：对齐 RL 与推理 RL 的能力增量来源不同，产品迭代时要区分是补对齐（更乖）还是补推理（更强）
评估难题：RL 训练的模型在传统 benchmark 上可能未必更高，但在 agent 任务、长 CoT 任务上能力差距巨大——评估体系需要相应升级

关联节点

算法：RLHF Constitutional AI DeepSeek
概念：合成数据 Test-Time Compute 幻觉
经典 RL：Q-learning Policy Gradient MCTS（多为 broken target，待 Rick 批量建）
产品：OpenAI o1 DeepSeek-R1（broken target）

强化学习