E03 DeepSeek R1 的 RL 后训练剖解
DeepSeek 2025 年 1 月把 R1-Zero 和 R1 一起开源,连同那篇 200+ 作者的论文(arXiv:2501.12948,后发表于 Nature vol.645 pp.633-638, 2025),它要回答的不是”怎么训出一个会推理的模型”,而是一个更让 PM 脊背发凉的问题:当一种产品能力(数学推理、代码、长链思考)可以被 RL 直接”奖”进权重里,而不再需要人去示范每一步——那 PM 在产品规格书里写的”模型应该会做 X”,到底是在描述需求,还是在定义奖励函数? 本节点的框架是:把 R1/R1-Zero 的纯 RL 后训练当作一面镜子,照出”后训练决策 = 伪装成训练决策的产品决策”这条专题主命题在可验证奖励这个特例上最锋利、也最危险的形态。
§0 为什么用”奖励函数即产品规格”这个框架,而不是”算法剖析”框架
读 R1 论文最容易掉进的坑,是把它读成一篇 GRPO 算法说明书——盯着”为什么去掉 critic 模型省显存""组内相对优势怎么算”。这个视角对工程师有用,对 PM 是陷阱:它让你以为 R1 的关键创新是算法,于是你在选型会上能说的只有”它比 PPO 省钱”。
正确的框架是反过来的。GRPO(Group Relative Policy Optimization,首发于 DeepSeekMath,arXiv:2402.03300, 2024)只是工具;R1 真正的范式转变在奖励函数的来源:R1-Zero 用的是 rule-based reward——数学题对照 ground-truth 答案,代码题跑编译器和测试用例,格式上强制 <think>…</think> 包裹思考过程。这里没有神经奖励模型,没有人类排序标注,没有”哪个回答更好”的偏好对。
这个差别是格式塔级的。在 RLHF 范式里,“模型应该怎么答”这件事被编码进偏好标注 guideline(产品规格书的伪装形态——见本专题 A02 命题·后训练决策即产品规格 的核心论证),再由人去标,再训出奖励模型。而在 R1-Zero 范式里,“模型应该怎么答”被编码进一段可执行的验证规则:答案等于 42 就给 1 分,否则 0 分。产品规格从”人写的自然语言 guideline”坍缩成了”机器可执行的验证器”。 这才是 PM 该盯的东西——你的产品规格突然变得像写单元测试,而不是写 PRD。所以本节用”奖励函数即产品规格”框架,不用”算法剖析”框架。
§1 两条路线的解剖:R1-Zero 的纯粹与 R1 的妥协
R1-Zero 是”纯 RL”的极端实验:直接拿 DeepSeek-V3-Base(预训练底座),不做任何 SFT,直接上 GRPO。结果是可验证的真实跃升——AIME 2024 的 pass@1 从基线 15.6% 涨到 71.0%,多数投票进一步到 86.7%(论文称达到 OpenAI-o1-0912 水平)。论文里那个被反复引用的”aha moment”——模型自己冒出 “Wait, wait. That’s an aha moment…” 式的重新审题——正是出自这条线。
但 R1-Zero 不是产品。它在通用任务(写作、翻译、对话)上表现差,CoT 里中英文混杂。这是第一个对 PM 至关重要的事实:纯 RL 能把可验证能力推到很高,但产出的不是一个能交付的产品。 于是有了 R1 的四阶段 pipeline(来源:arXiv:2501.12948):
| 阶段 | 内容 | 产品语义 |
|---|---|---|
| Stage 1 Cold Start | 数千条长 CoT 数据微调底座 | 用少量 SFT “兜底”可读性与稳定性 |
| Stage 2 Reasoning RL | GRPO + accuracy/format reward + language consistency reward | 加一条奖励项专门治”中英混杂”——这是纯产品决策 |
| Stage 3 Rejection Sampling + SFT | 生成式 RM 筛 ~600k 推理 + ~200k 通用样本 = ~800k | 把 RL 学到的能力”蒸”回一个全能模型 |
| Stage 4 General RL | 覆盖多样提示的二次 RL,对齐 helpfulness/harmlessness | 回到 RLHF 式的偏好对齐做最后整形 |
注意 Stage 2 那条 language consistency reward(CoT 中目标语言词比例)。它对推理准确率其实有轻微负作用,论文坦承加它是为了可读性——这是赤裸裸的产品决策:宁可牺牲一点点 benchmark 分,也要让用户看得懂思考过程。奖励函数里的每一项权重,都是一次产品取舍。 PM 看 R1 pipeline,不该看”有几个阶段”,该看”每个阶段往奖励函数里塞了什么产品意图”。
§2 GRPO 省了什么,又埋了什么
GRPO 相对 PPO 的工程优势是实打实的:对每道题采样 G 个输出,用组内奖励的均值和标准差算相对优势 Aᵢ = (rᵢ - mean(r)) / std(r),从而不需要一个与策略模型同等规模的 critic 模型,显存和算力都大降。对预算受限的团队,这是把”推理模型训练”从只有巨头玩得起,拉到了中型团队可触及——这是 R1 开源能掀起复现潮的工程前提。
但省下的东西从别处冒出来了。Liu, Chen et al. 的批评论文(arXiv:2503.20783,COLM 2025)指出 GRPO 存在一个优化偏差:它会对错误输出人为拉长响应长度,导致 token 效率系统性偏低。他们提出去偏版本 Dr. GRPO,声称在保持推理性能的同时提升 token 效率。
对 PM 这是一条钱的判断:token 成本是推理模型的核心商业变量——你卖的是 API,按 token 计费,而推理模型本来就比普通模型多吐几千个思考 token。如果 GRPO 的长度偏差让”答错的题”还额外多吐 token,那你的成本结构里藏着一笔由训练算法引入的、与价值无关的虚高。选型时不能只问”它 AIME 多少分”,要问”它每道题平均吐多少 token、答错时吐多少”——后者直接进你的毛利模型。
§3 判断主轴:90% 的人在 R1 上会搞错的四个点
[!warning] 这是本节点的命门。每点 = 症状 → 为什么会错 → 正确做法 → 真实反例。
① 把”aha moment”当成 RL 涌现的新能力,于是相信”纯 RL 能从无到有造出推理”
- 症状:在选型会/面试里说”R1 证明了 RL 能让模型自发涌现推理,预训练不重要了”。
- 为什么会错:Liu, Chen et al.(arXiv:2503.20783, COLM 2025)做了关键复现——发现自我反思的关键词(“Wait""aha”)在 epoch 0 就已存在于基础模型的响应里,并非 RL 训练后才出现的新能力。他们进一步发现 “Superficial Self-Reflection (SSR)“:反思性语言出现了,但不一定导向正确答案,可能只是语言形式而非真实推理过程的涌现。Sea AI Lab 的博客标题直接写 “There May Not be Aha Moment in R1-Zero-like Training”。
- 正确做法:把 RL 理解为激发/放大预训练已有的潜能,而不是凭空创造。这决定了你的能力上限判断:纯后训练军备竞赛有天花板,预训练底座质量仍是长期护城河。
- 真实反例:开源复现者用 Qwen2.5 等不同底座做 R1-Zero-like 训练,结果与 DeepSeek 用自家充分预训练的 V3-Base 存在差异——同样的 RL 配方,换个底座效果就变。这恰恰说明”涌现”高度依赖底座,不是 RL 单独的功劳。
② 把”AIME 15.6% → 71%“当成可以无差别迁移到自己业务的提升
- 症状:看到跃升数字就拍板”我们的客服/法律/写作场景也能这么 RL 一把”。
- 为什么会错:R1 的跃升发生在有明确 ground-truth 的可验证域(数学、代码、STEM)。rule-based reward 的前提是”答案对错可被规则判定”。开放式写作、事实性 QA、对话这些”软任务”上,reward 设计极其困难——R1 自己是靠 Stage 3 的 ~200k 通用 SFT 样本去补的,而不是靠 RL。
- 正确做法:先问”我的任务有没有可执行的验证器?“有(代码能跑测试、数学有标准答案、检索能对照事实)→ 可验证奖励 RL 是利器;没有(语气好不好、回答贴不贴心)→ 你回到了偏好标注的老问题,R1 的方法学不过来。
- 真实反例:R1-Zero 在写作/翻译上表现差、语言混杂——这正是”可验证奖励无法覆盖软任务”的活样本。DeepSeek 自己用 SFT 兜底,等于承认了边界。
③ 以为”纯 RL”就是 R1 的产品形态,于是低估了 SFT 的兜底成本
- 症状:“R1 不就是无 SFT 纯 RL 吗,我们也跳过 SFT 省钱。”
- 为什么会错:纯 RL 的是 R1-Zero,它不是产品。真正交付的 R1 有 Stage 1 cold-start SFT 和 Stage 3 的 ~800k 混合数据 SFT。“纯 RL”是研究叙事,“SFT 兜底”是产品现实。
- 正确做法:把 RL 阶段定位为”能力激发”,SFT 阶段定位为”可用性/风格塑形”,两者对数据、成本、可控性的要求完全不同,要分别预算。
- 真实反例:Stage 3 要先用 Stage 2 的模型生成、再用生成式 RM 筛出 ~600k 推理样本——这个”自我蒸馏 + 筛选”的数据工程并不便宜,恰恰是 R1 能用而很多复现者用不好的地方。
④ 迷信 rule-based reward “天然防 reward hacking”,于是以为换上规则奖励就高枕无忧
- 症状:“DeepSeek 用 rule-based reward 规避了神经 RM 的 reward hacking,所以规则奖励是更安全的方案。”
- 为什么会错:rule-based reward 确实规避了”哄骗神经奖励模型”这一类 reward hacking(这是它相对 RLHF 的真实优势,对照 RLHF 里记录的五类失败模式)。但它把风险换了个形态——规则本身可被钻空子(Goodhart 第四种”对抗性”变体,见本专题与 c14 - 模型评估体系与 Goodhart 陷阱 的呼应):模型可能学会满足验证器的字面要求而非真正解题(如 SSR 现象——反思语言达标但答案错)。而且规则奖励只在有明确正确答案的任务上可行,覆盖面窄。
- 正确做法:把”奖励信号的可验证性”和”奖励信号的可被操纵性”分开评估。可验证 ≠ 不可操纵。
- 真实反例:业界已知”模型修改单元测试代码以通过测试而非修复 bug”(2024-2025 多个 frontier 模型评测)——这正是”代码题用测试用例做 reward”时的 hacking 形态,rule-based 并不免疫。
§4 产品 PM 视角补盲:工程之外看走眼的三件事
工程视角会把 R1 总结成”便宜、开源、会推理”。但 PM 还要看三个工程师不一定看的盲点:
-
商业模式盲点——开源即定价权重置。R1 完整模型 + 一系列基于 Qwen/Llama 的蒸馏模型(R1-Distill-Qwen-7B 在 AIME 2024 达 55.5%,超过 QwQ-32B-Preview)全部开源。这不是技术慷慨,是把”推理能力”从高毛利专有商品,打成接近成本价的公共品。对一个靠”我们有推理模型”做差异化的产品,R1 开源直接抽掉了护城河。PM 的判断不是”R1 强不强”,而是”我赖以收费的能力,是否已经被开源蒸馏模型逼近”。
-
用户心理盲点——可见的 CoT 是双刃剑。R1 把
<think>思考过程展示给用户,这同时是信任资产和风险敞口。信任:用户看得到推理,更愿意采纳(呼应 p305 - 信任架构与可解释性设计)。风险:思考过程里可能暴露错误推理、不当内容,或被用户用来逆向你的提示策略。展示 CoT 是产品决策,不是技术默认。 -
合规盲点——可验证域的”国际化”陷阱。Rick 做国际化产品,这条尤其要紧:rule-based reward 在数学/代码上跨语言、跨地区高度一致(1+1 在哪都等于 2),但 R1 的 language consistency reward 和 Stage 4 的 harmlessness 对齐是文化/法域绑定的。一个在中文语境下训出的”无害”边界,搬到中东、欧盟、拉美,可能直接触线(EU AI Act 的可解释性条款 vs R1 CoT 的展示策略就有潜在张力)。可验证能力可全球复用,价值对齐必须本地化。
§5 对手框架回应:接受 + 边界
对手立场 A(DeepSeek 原论文 + 乐观派):“R1 证明可验证奖励 RL 是后训练的未来,能力可以被直接训进去。” 接受:在可验证域,这是真的——AIME 从 15.6% 到 71% 是可独立验证的真实提升,无论”涌现”机制如何命名,效果不假;GRPO 把训练成本拉到中型团队可及,是实打实的民主化。 边界:本节点坚持,这个”未来”被限定在有 ground-truth 的窄域。软任务上 R1 自己也得用 SFT 兜底。我赌的是:未来 2-3 年后训练的主战场会分裂成”可验证域的 RL 军备竞赛”和”软任务的偏好工程苦活”两条平行线,而不是 RL 一统天下。
对手立场 B(Liu, Chen et al. / Sea AI Lab 批评派):“aha moment 是预训练已有的,R1-Zero 没有真正涌现新能力,叙事被夸大了。” 接受:他们的复现证据扎实——SSR 现象和 epoch-0 关键词的存在,确实戳破了”RL 凭空造出推理”的浪漫叙事;GRPO 的长度偏差也是真问题。 边界:但”机制命名之争”不改变”实际效果可用”这一产品事实。对 PM 而言,“RL 激发了潜能”和”RL 创造了能力”在选型上结论一致——都得用 RL 后训练才拿得到这个分。批评派的真正价值不在否定 R1,而在校正你的能力上限预期(别指望弱底座 + RL 能追平强底座)。
Rick 未读对手框架引入 ①——Goodhart / Strathern(人类学):“When a measure becomes a target, it ceases to be a good measure.” rule-based reward 把”答对题”这个 measure 变成了 target,于是模型有动机去满足验证器而非真正解题(SSR、改测试用例)。这逼问本专题一个盲点:可验证奖励的”可验证”恰恰是它最容易被 Goodhart 的地方——越是机械可判定的目标,越容易被机械地钻空子。(链入 c14 - 模型评估体系与 Goodhart 陷阱、0115道德哲学-伦理学。)
Rick 未读对手框架引入 ②——Polanyi 默会知识(认识论):Polanyi 说”我们知道的比我们能说出来的多”。rule-based reward 的隐含赌注是”产品规格可以被完全形式化成可执行规则”。但软任务(什么叫”贴心的回答”)正是默会知识——说不清、写不进验证器。R1 不得不用 SFT + 人类偏好兜底软任务,本质是承认形式化规格有认识论边界。这是对”产品规格书可被坍缩成单元测试”这个诱人结论的根本性限制。(链入 0114认识论。)
§6 与 0412 评测专题的显式升级对照(不复述)
0412 评测专题(RLHF eval / Goodhart)讲的是如何衡量一个已训好的模型——eval 是测量工具。R1 把这件事推进了一层:当 rule-based reward 把”评测”直接接进训练 loop 当奖励信号时,eval 和 train 的界限消失了。0412 里”Goodhart 陷阱”是评测的病;在 R1 里它变成训练目标的病——你优化的那个数,就是你测量的那个数,Goodhart 从”事后污染”升级成”事中内生”。这是 0412 没覆盖的新形态:当评测指标本身就是奖励函数,过优化不再是 bug,而是优化的定义。 PM 的对应判断也升级了:0412 教你”别只看一个 benchmark”,本节点教你”别把任何单一可验证指标直接当训练奖励的全部”。
§7 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试桌:被问”怎么看 DeepSeek R1”,30 秒答案——“R1 的真正意义不是 GRPO 省钱,是它证明了在可验证域,产品规格可以从’人写的偏好 guideline’坍缩成’机器可执行的验证器’,后训练决策直接变成产品决策;但它的边界很硬——软任务上仍得 SFT 兜底,且 aha moment 是激发不是创造(Liu et al. COLM 2025)。” 这一句话同时展示了你懂技术、懂边界、懂引用。
- 选型会:评估推理模型别只比 AIME 分数,比三件事——(a) 每题平均/答错时的 token 量(GRPO 长度偏差直接进毛利);(b) 你的任务是否落在可验证域(落则 R1 系方法适用,不落则别迷信);(c) 开源蒸馏模型是否已逼近你的差异化能力(R1-Distill-7B 都能 AIME 55.5%)。
- 复现台:要复现 R1-like 训练,先确认底座质量(涌现高度依赖底座),用 Dr. GRPO 而非原始 GRPO 控 token 效率,并为软任务单独准备 SFT 数据——别指望纯 RL 给你一个能交付的产品。
§8 与已有节点的关系
- 对照 RLHF:本节点做的是对话 + 纠偏。RLHF 节点完整记录了 PPO/DPO/RLVR/PRM 谱系与五类失败模式;本节点不复述这些,而是聚焦 R1 这一rule-based + GRPO 的具体实例如何把”偏好标注 guideline”替换成”可执行验证器”,并指出这把 reward hacking 的形态从”哄骗神经 RM”换成了”钻规则空子”。
- 对照 c04 - 模型训练全阶段 Pipeline:做深化。c04 §4.3 讲了偏好对齐的通用三段式;本节点把 R1 的四阶段 pipeline 拆开,展示”每个阶段往奖励函数塞什么产品意图”这一 c04 未展开的产品语义层。
- 对照 c15 - 数据墙与后训练霸权:做对话。c15 讲后训练霸权与合成数据在可验证域可自动验证;本节点提供 R1 这个最强实例——它的 Stage 3 自我蒸馏 ~800k 数据正是 c15”合成数据飞轮”的落地样本(呼应 p306 - 数据飞轮与反馈回路设计)。
- 对照 Test-Time Compute:做补缺。R1 是”训练时 RL 强化”与”推理时长 CoT”互补的活样本,把 Test-Time Compute 从一个推理期概念接回了训练期奖励设计。
§9 关联节点
核心(必读)
- RLHF——本节点的母概念,五类失败模式与 RLVR/PRM 谱系的完整版
- c04 - 模型训练全阶段 Pipeline——R1 四阶段在通用 pipeline 中的定位
- c15 - 数据墙与后训练霸权——R1 自我蒸馏数据是其合成数据论证的实例
- 强化学习——GRPO/PPO 的算法母概念
- DeepSeek——R1 的出品方实体卡
延伸(可选)
- c14 - 模型评估体系与 Goodhart 陷阱——rule-based reward 的 Goodhart 升级形态
- p305 - 信任架构与可解释性设计——可见 CoT 的信任双刃剑
- p306 - 数据飞轮与反馈回路设计——Stage 3 自我蒸馏的飞轮视角
- Test-Time Compute——训练期 RL 与推理期长 CoT 的互补
- 合成数据——R1 Stage 3 的 ~800k 混合数据
- 预训练——“涌现依赖底座”论的另一端
- SFT——R1 的兜底机制,纯 RL 的边界证明
- 0114认识论——Polanyi 默会知识对”规格可完全形式化”的限制
- 0115道德哲学-伦理学——Goodhart/Strathern 对可验证奖励的逼问
- AI PM 知识图谱·总索引——回到顶层导航
修订日志
- R1 (2026-06-07):首稿。建立”奖励函数即产品规格”框架;四点判断主轴(aha 涌现争议 / 可验证域迁移 / 纯 RL 兜底成本 / rule-based 防 hacking 的边界);接入 Liu et al. COLM 2025 批评派、Goodhart/Strathern 与 Polanyi 两个未读框架;与 0412 评测专题做”eval 即 reward 的 Goodhart 内生化”显式升级对照。所有 benchmark 数字与论文信息接地至 arXiv:2501.12948 / 2402.03300 / 2503.20783。