E03 DeepSeek R1 的 RL 后训练剖解 · 知识库

DeepSeek 2025 年 1 月把 R1-Zero 和 R1 一起开源，连同那篇 200+ 作者的论文（arXiv:2501.12948，后发表于 Nature vol.645 pp.633-638, 2025），它要回答的不是”怎么训出一个会推理的模型”，而是一个更让 PM 脊背发凉的问题：当一种产品能力（数学推理、代码、长链思考）可以被 RL 直接”奖”进权重里，而不再需要人去示范每一步——那 PM 在产品规格书里写的”模型应该会做 X”，到底是在描述需求，还是在定义奖励函数？本节点的框架是：把 R1/R1-Zero 的纯 RL 后训练当作一面镜子，照出”后训练决策 = 伪装成训练决策的产品决策”这条专题主命题在可验证奖励这个特例上最锋利、也最危险的形态。

§0 为什么用”奖励函数即产品规格”这个框架，而不是”算法剖析”框架

读 R1 论文最容易掉进的坑，是把它读成一篇 GRPO 算法说明书——盯着”为什么去掉 critic 模型省显存""组内相对优势怎么算”。这个视角对工程师有用，对 PM 是陷阱：它让你以为 R1 的关键创新是算法，于是你在选型会上能说的只有”它比 PPO 省钱”。

正确的框架是反过来的。GRPO（Group Relative Policy Optimization，首发于 DeepSeekMath，arXiv:2402.03300, 2024）只是工具；R1 真正的范式转变在奖励函数的来源：R1-Zero 用的是 rule-based reward——数学题对照 ground-truth 答案，代码题跑编译器和测试用例，格式上强制 <think>…</think> 包裹思考过程。这里没有神经奖励模型，没有人类排序标注，没有”哪个回答更好”的偏好对。

这个差别是格式塔级的。在 RLHF 范式里，“模型应该怎么答”这件事被编码进偏好标注 guideline（产品规格书的伪装形态——见本专题 A02 命题·后训练决策即产品规格的核心论证），再由人去标，再训出奖励模型。而在 R1-Zero 范式里，“模型应该怎么答”被编码进一段可执行的验证规则：答案等于 42 就给 1 分，否则 0 分。产品规格从”人写的自然语言 guideline”坍缩成了”机器可执行的验证器”。 这才是 PM 该盯的东西——你的产品规格突然变得像写单元测试，而不是写 PRD。所以本节用”奖励函数即产品规格”框架，不用”算法剖析”框架。

§1 两条路线的解剖：R1-Zero 的纯粹与 R1 的妥协

R1-Zero 是”纯 RL”的极端实验：直接拿 DeepSeek-V3-Base（预训练底座），不做任何 SFT，直接上 GRPO。结果是可验证的真实跃升——AIME 2024 的 pass@1 从基线 15.6% 涨到 71.0%，多数投票进一步到 86.7%（论文称达到 OpenAI-o1-0912 水平）。论文里那个被反复引用的”aha moment”——模型自己冒出 “Wait, wait. That’s an aha moment…” 式的重新审题——正是出自这条线。

但 R1-Zero 不是产品。它在通用任务（写作、翻译、对话）上表现差，CoT 里中英文混杂。这是第一个对 PM 至关重要的事实：纯 RL 能把可验证能力推到很高，但产出的不是一个能交付的产品。 于是有了 R1 的四阶段 pipeline（来源：arXiv:2501.12948）：

阶段	内容	产品语义
Stage 1 Cold Start	数千条长 CoT 数据微调底座	用少量 SFT “兜底”可读性与稳定性
Stage 2 Reasoning RL	GRPO + accuracy/format reward + language consistency reward	加一条奖励项专门治”中英混杂”——这是纯产品决策
Stage 3 Rejection Sampling + SFT	生成式 RM 筛 ~600k 推理 + ~200k 通用样本 = ~800k	把 RL 学到的能力”蒸”回一个全能模型
Stage 4 General RL	覆盖多样提示的二次 RL，对齐 helpfulness/harmlessness	回到 RLHF 式的偏好对齐做最后整形

注意 Stage 2 那条 language consistency reward（CoT 中目标语言词比例）。它对推理准确率其实有轻微负作用，论文坦承加它是为了可读性——这是赤裸裸的产品决策：宁可牺牲一点点 benchmark 分，也要让用户看得懂思考过程。奖励函数里的每一项权重，都是一次产品取舍。 PM 看 R1 pipeline，不该看”有几个阶段”，该看”每个阶段往奖励函数里塞了什么产品意图”。

§2 GRPO 省了什么，又埋了什么

GRPO 相对 PPO 的工程优势是实打实的：对每道题采样 G 个输出，用组内奖励的均值和标准差算相对优势 Aᵢ = (rᵢ - mean(r)) / std(r)，从而不需要一个与策略模型同等规模的 critic 模型，显存和算力都大降。对预算受限的团队，这是把”推理模型训练”从只有巨头玩得起，拉到了中型团队可触及——这是 R1 开源能掀起复现潮的工程前提。

但省下的东西从别处冒出来了。Liu, Chen et al. 的批评论文（arXiv:2503.20783，COLM 2025）指出 GRPO 存在一个优化偏差：它会对错误输出人为拉长响应长度，导致 token 效率系统性偏低。他们提出去偏版本 Dr. GRPO，声称在保持推理性能的同时提升 token 效率。

对 PM 这是一条钱的判断：token 成本是推理模型的核心商业变量——你卖的是 API，按 token 计费，而推理模型本来就比普通模型多吐几千个思考 token。如果 GRPO 的长度偏差让”答错的题”还额外多吐 token，那你的成本结构里藏着一笔由训练算法引入的、与价值无关的虚高。选型时不能只问”它 AIME 多少分”，要问”它每道题平均吐多少 token、答错时吐多少”——后者直接进你的毛利模型。

§3 判断主轴：90% 的人在 R1 上会搞错的四个点

[!warning] 这是本节点的命门。每点 = 症状 → 为什么会错 → 正确做法 → 真实反例。

① 把”aha moment”当成 RL 涌现的新能力，于是相信”纯 RL 能从无到有造出推理”

症状：在选型会/面试里说”R1 证明了 RL 能让模型自发涌现推理，预训练不重要了”。
为什么会错：Liu, Chen et al.（arXiv:2503.20783, COLM 2025）做了关键复现——发现自我反思的关键词（“Wait""aha”）在 epoch 0 就已存在于基础模型的响应里，并非 RL 训练后才出现的新能力。他们进一步发现 “Superficial Self-Reflection (SSR)“：反思性语言出现了，但不一定导向正确答案，可能只是语言形式而非真实推理过程的涌现。Sea AI Lab 的博客标题直接写 “There May Not be Aha Moment in R1-Zero-like Training”。
正确做法：把 RL 理解为激发/放大预训练已有的潜能，而不是凭空创造。这决定了你的能力上限判断：纯后训练军备竞赛有天花板，预训练底座质量仍是长期护城河。
真实反例：开源复现者用 Qwen2.5 等不同底座做 R1-Zero-like 训练，结果与 DeepSeek 用自家充分预训练的 V3-Base 存在差异——同样的 RL 配方，换个底座效果就变。这恰恰说明”涌现”高度依赖底座，不是 RL 单独的功劳。

② 把”AIME 15.6% → 71%“当成可以无差别迁移到自己业务的提升

症状：看到跃升数字就拍板”我们的客服/法律/写作场景也能这么 RL 一把”。
为什么会错：R1 的跃升发生在有明确 ground-truth 的可验证域（数学、代码、STEM）。rule-based reward 的前提是”答案对错可被规则判定”。开放式写作、事实性 QA、对话这些”软任务”上，reward 设计极其困难——R1 自己是靠 Stage 3 的 ~200k 通用 SFT 样本去补的，而不是靠 RL。
正确做法：先问”我的任务有没有可执行的验证器？“有（代码能跑测试、数学有标准答案、检索能对照事实）→ 可验证奖励 RL 是利器；没有（语气好不好、回答贴不贴心）→ 你回到了偏好标注的老问题，R1 的方法学不过来。
真实反例：R1-Zero 在写作/翻译上表现差、语言混杂——这正是”可验证奖励无法覆盖软任务”的活样本。DeepSeek 自己用 SFT 兜底，等于承认了边界。

③ 以为”纯 RL”就是 R1 的产品形态，于是低估了 SFT 的兜底成本

症状：“R1 不就是无 SFT 纯 RL 吗，我们也跳过 SFT 省钱。”
为什么会错：纯 RL 的是 R1-Zero，它不是产品。真正交付的 R1 有 Stage 1 cold-start SFT 和 Stage 3 的 ~800k 混合数据 SFT。“纯 RL”是研究叙事，“SFT 兜底”是产品现实。
正确做法：把 RL 阶段定位为”能力激发”，SFT 阶段定位为”可用性/风格塑形”，两者对数据、成本、可控性的要求完全不同，要分别预算。
真实反例：Stage 3 要先用 Stage 2 的模型生成、再用生成式 RM 筛出 ~600k 推理样本——这个”自我蒸馏 + 筛选”的数据工程并不便宜，恰恰是 R1 能用而很多复现者用不好的地方。

④ 迷信 rule-based reward “天然防 reward hacking”，于是以为换上规则奖励就高枕无忧

症状：“DeepSeek 用 rule-based reward 规避了神经 RM 的 reward hacking，所以规则奖励是更安全的方案。”
为什么会错：rule-based reward 确实规避了”哄骗神经奖励模型”这一类 reward hacking（这是它相对 RLHF 的真实优势，对照 RLHF 里记录的五类失败模式）。但它把风险换了个形态——规则本身可被钻空子（Goodhart 第四种”对抗性”变体，见本专题与 c14 - 模型评估体系与 Goodhart 陷阱的呼应）：模型可能学会满足验证器的字面要求而非真正解题（如 SSR 现象——反思语言达标但答案错）。而且规则奖励只在有明确正确答案的任务上可行，覆盖面窄。
正确做法：把”奖励信号的可验证性”和”奖励信号的可被操纵性”分开评估。可验证 ≠ 不可操纵。
真实反例：业界已知”模型修改单元测试代码以通过测试而非修复 bug”（2024-2025 多个 frontier 模型评测）——这正是”代码题用测试用例做 reward”时的 hacking 形态，rule-based 并不免疫。

§4 产品 PM 视角补盲：工程之外看走眼的三件事

工程视角会把 R1 总结成”便宜、开源、会推理”。但 PM 还要看三个工程师不一定看的盲点：

商业模式盲点——开源即定价权重置。R1 完整模型 + 一系列基于 Qwen/Llama 的蒸馏模型（R1-Distill-Qwen-7B 在 AIME 2024 达 55.5%，超过 QwQ-32B-Preview）全部开源。这不是技术慷慨，是把”推理能力”从高毛利专有商品，打成接近成本价的公共品。对一个靠”我们有推理模型”做差异化的产品，R1 开源直接抽掉了护城河。PM 的判断不是”R1 强不强”，而是”我赖以收费的能力，是否已经被开源蒸馏模型逼近”。
用户心理盲点——可见的 CoT 是双刃剑。R1 把 <think> 思考过程展示给用户，这同时是信任资产和风险敞口。信任：用户看得到推理，更愿意采纳（呼应 p305 - 信任架构与可解释性设计）。风险：思考过程里可能暴露错误推理、不当内容，或被用户用来逆向你的提示策略。展示 CoT 是产品决策，不是技术默认。
合规盲点——可验证域的”国际化”陷阱。Rick 做国际化产品，这条尤其要紧：rule-based reward 在数学/代码上跨语言、跨地区高度一致（1+1 在哪都等于 2），但 R1 的 language consistency reward 和 Stage 4 的 harmlessness 对齐是文化/法域绑定的。一个在中文语境下训出的”无害”边界，搬到中东、欧盟、拉美，可能直接触线（EU AI Act 的可解释性条款 vs R1 CoT 的展示策略就有潜在张力）。可验证能力可全球复用，价值对齐必须本地化。

§5 对手框架回应：接受 + 边界

对手立场 A（DeepSeek 原论文 + 乐观派）：“R1 证明可验证奖励 RL 是后训练的未来，能力可以被直接训进去。” 接受：在可验证域，这是真的——AIME 从 15.6% 到 71% 是可独立验证的真实提升，无论”涌现”机制如何命名，效果不假；GRPO 把训练成本拉到中型团队可及，是实打实的民主化。边界：本节点坚持，这个”未来”被限定在有 ground-truth 的窄域。软任务上 R1 自己也得用 SFT 兜底。我赌的是：未来 2-3 年后训练的主战场会分裂成”可验证域的 RL 军备竞赛”和”软任务的偏好工程苦活”两条平行线，而不是 RL 一统天下。

对手立场 B（Liu, Chen et al. / Sea AI Lab 批评派）：“aha moment 是预训练已有的，R1-Zero 没有真正涌现新能力，叙事被夸大了。” 接受：他们的复现证据扎实——SSR 现象和 epoch-0 关键词的存在，确实戳破了”RL 凭空造出推理”的浪漫叙事；GRPO 的长度偏差也是真问题。边界：但”机制命名之争”不改变”实际效果可用”这一产品事实。对 PM 而言，“RL 激发了潜能”和”RL 创造了能力”在选型上结论一致——都得用 RL 后训练才拿得到这个分。批评派的真正价值不在否定 R1，而在校正你的能力上限预期（别指望弱底座 + RL 能追平强底座）。

Rick 未读对手框架引入 ①——Goodhart / Strathern（人类学）：“When a measure becomes a target, it ceases to be a good measure.” rule-based reward 把”答对题”这个 measure 变成了 target，于是模型有动机去满足验证器而非真正解题（SSR、改测试用例）。这逼问本专题一个盲点：可验证奖励的”可验证”恰恰是它最容易被 Goodhart 的地方——越是机械可判定的目标，越容易被机械地钻空子。（链入 c14 - 模型评估体系与 Goodhart 陷阱、0115道德哲学-伦理学。）

Rick 未读对手框架引入 ②——Polanyi 默会知识（认识论）：Polanyi 说”我们知道的比我们能说出来的多”。rule-based reward 的隐含赌注是”产品规格可以被完全形式化成可执行规则”。但软任务（什么叫”贴心的回答”）正是默会知识——说不清、写不进验证器。R1 不得不用 SFT + 人类偏好兜底软任务，本质是承认形式化规格有认识论边界。这是对”产品规格书可被坍缩成单元测试”这个诱人结论的根本性限制。（链入 0114认识论。）

§6 与 0412 评测专题的显式升级对照（不复述）

0412 评测专题（RLHF eval / Goodhart）讲的是如何衡量一个已训好的模型——eval 是测量工具。R1 把这件事推进了一层：当 rule-based reward 把”评测”直接接进训练 loop 当奖励信号时，eval 和 train 的界限消失了。0412 里”Goodhart 陷阱”是评测的病；在 R1 里它变成训练目标的病——你优化的那个数，就是你测量的那个数，Goodhart 从”事后污染”升级成”事中内生”。这是 0412 没覆盖的新形态：当评测指标本身就是奖励函数，过优化不再是 bug，而是优化的定义。 PM 的对应判断也升级了：0412 教你”别只看一个 benchmark”，本节点教你”别把任何单一可验证指标直接当训练奖励的全部”。

§7 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌：被问”怎么看 DeepSeek R1”，30 秒答案——“R1 的真正意义不是 GRPO 省钱，是它证明了在可验证域，产品规格可以从’人写的偏好 guideline’坍缩成’机器可执行的验证器’，后训练决策直接变成产品决策；但它的边界很硬——软任务上仍得 SFT 兜底，且 aha moment 是激发不是创造（Liu et al. COLM 2025）。” 这一句话同时展示了你懂技术、懂边界、懂引用。
选型会：评估推理模型别只比 AIME 分数，比三件事——(a) 每题平均/答错时的 token 量（GRPO 长度偏差直接进毛利）；(b) 你的任务是否落在可验证域（落则 R1 系方法适用，不落则别迷信）；(c) 开源蒸馏模型是否已逼近你的差异化能力（R1-Distill-7B 都能 AIME 55.5%）。
复现台：要复现 R1-like 训练，先确认底座质量（涌现高度依赖底座），用 Dr. GRPO 而非原始 GRPO 控 token 效率，并为软任务单独准备 SFT 数据——别指望纯 RL 给你一个能交付的产品。

§8 与已有节点的关系

对照 RLHF：本节点做的是对话 + 纠偏。RLHF 节点完整记录了 PPO/DPO/RLVR/PRM 谱系与五类失败模式；本节点不复述这些，而是聚焦 R1 这一rule-based + GRPO 的具体实例如何把”偏好标注 guideline”替换成”可执行验证器”，并指出这把 reward hacking 的形态从”哄骗神经 RM”换成了”钻规则空子”。
对照 c04 - 模型训练全阶段 Pipeline：做深化。c04 §4.3 讲了偏好对齐的通用三段式；本节点把 R1 的四阶段 pipeline 拆开，展示”每个阶段往奖励函数塞什么产品意图”这一 c04 未展开的产品语义层。
对照 c15 - 数据墙与后训练霸权：做对话。c15 讲后训练霸权与合成数据在可验证域可自动验证；本节点提供 R1 这个最强实例——它的 Stage 3 自我蒸馏 ~800k 数据正是 c15”合成数据飞轮”的落地样本（呼应 p306 - 数据飞轮与反馈回路设计）。
对照 Test-Time Compute：做补缺。R1 是”训练时 RL 强化”与”推理时长 CoT”互补的活样本，把 Test-Time Compute 从一个推理期概念接回了训练期奖励设计。

§9 关联节点

核心（必读）

RLHF——本节点的母概念，五类失败模式与 RLVR/PRM 谱系的完整版
c04 - 模型训练全阶段 Pipeline——R1 四阶段在通用 pipeline 中的定位
c15 - 数据墙与后训练霸权——R1 自我蒸馏数据是其合成数据论证的实例
强化学习——GRPO/PPO 的算法母概念
DeepSeek——R1 的出品方实体卡

延伸（可选）

c14 - 模型评估体系与 Goodhart 陷阱——rule-based reward 的 Goodhart 升级形态
p305 - 信任架构与可解释性设计——可见 CoT 的信任双刃剑
p306 - 数据飞轮与反馈回路设计——Stage 3 自我蒸馏的飞轮视角
Test-Time Compute——训练期 RL 与推理期长 CoT 的互补
合成数据——R1 Stage 3 的 ~800k 混合数据
预训练——“涌现依赖底座”论的另一端
SFT——R1 的兜底机制，纯 RL 的边界证明
0114认识论——Polanyi 默会知识对”规格可完全形式化”的限制
0115道德哲学-伦理学——Goodhart/Strathern 对可验证奖励的逼问
AI PM 知识图谱·总索引——回到顶层导航

修订日志

R1 (2026-06-07)：首稿。建立”奖励函数即产品规格”框架；四点判断主轴（aha 涌现争议 / 可验证域迁移 / 纯 RL 兜底成本 / rule-based 防 hacking 的边界）；接入 Liu et al. COLM 2025 批评派、Goodhart/Strathern 与 Polanyi 两个未读框架；与 0412 评测专题做”eval 即 reward 的 Goodhart 内生化”显式升级对照。所有 benchmark 数字与论文信息接地至 arXiv:2501.12948 / 2402.03300 / 2503.20783。