README·多视图阅读指南

一句话定义：本指南是 0433 专题 15 个节点的三套读法——分别对应”转型 PM 求职速通”、“按决策链跳转”、“按紧迫度优先”三种 Rick 在不同时段会切换的身份模式；每条路径都标注预计时长、前置依赖、产出指标，不允许”很快读完”这类无锚点话术。读完后用 §5 的 12 道自测题（每题带及格线/优秀线/反例）自检，用 §6 的反方对话训练把”reasoning ≠ thinking ≠ test-time compute”练成肌肉记忆。

序：为什么推理专题需要多视图

转型 PM 不是一种状态，而是多种状态在不同周轮流出现。同一份内容，求职前最后一周读和入职第三个月做选型时读，需要的切入路径完全不同。强行单线性读完 15 个节点，会出现三种典型失败：

熵增式遗忘：按目录顺序读完，三天后只记得最后两篇。
抽象层错位：读到 S01 三种花法时还没建立 A02 五词辨析的坐标，分不清”采样/验证/搜索”和”CoT/reasoning/thinking”是两套正交的词。
临场失血：面试当天才发现 R01 没动过手，“能背 self-consistency 是什么，但没亲眼见过它的对数收益曲线”。

所以本专题不提供”标准读法”,而提供三套有锚点的读法：

身份模式	触发场景	对应路径
求职转型者	3 个月内有 AI PM 面试压力，需建立完整心智模型	路径 A（速通，约 16 h）
工作日常 PM	在岗或在做选型/成本方案，按当前决策跳读	路径 B（决策链，按需取用）
碎片学习者	通勤、周末、紧迫度不均；或临近某事件	路径 C（红橙黄蓝四档）

三条路径共用同一个节点池，可在不同周切换而无须重读。

[!note] 本专题与 0411 Agent 专题的读法差异 0411 是 22 节点、强调”代际感 + 架构剖面”；本专题只有 15 节点，但辨义负载更重——头号失败不是”不知道有几代”，而是”把五个互相不可通约的词当同义词用”。所以本指南的速通路径把 A02 五词辨析·CoT 推理思考慢思考 Inference-scaling 放在第一篇，而不是按字母序从 A01 起。

路径 A：转型 PM 速通（求职导向）

适用对象：3 个月内有 AI PM 面试压力的 Rick；零碎时间能稳定凑出每天 1–1.5 小时。 总预计时长：约 16 小时（含 R01 复现 3 小时）。 前置依赖：已读过 c11 - System 2 思维与 Test-Time Compute 与 m209 - 推理成本控制手册的目录级摘要（不必精读——本专题是它们的升级对照）。 最终产出：能在面试 30 秒内拆穿”o3 比 GPT-4 强”的归因塌缩 + 一份能跑的 R01 self-consistency demo。

速通分三周，每周一个能力闸门。每周末必须能口答下面的”闸门题”，答不上不要进下一周——本专题的节点高度互锁，跳级读会在 S01 撞墙。

Week 1：术语坐标（约 5 小时）—— 防滑变疫苗

节点	预计时长	你在做什么
A02 五词辨析·CoT 推理思考慢思考 Inference-scaling	1.5 h	建立”层 × 时间”二维坐标，知道 reasoning 是唯一在”训练期/改权重”格子里的词
A01 Reasoning 概念史·从 CoT 到 Test-Time Compute	1.5 h	建立”这个词 2022→2025 指代物换了三次”的元认知
A04 Reasoning Effort 作为可计费资源	1 h	学会问”effort 是开关还是滑杆”——它有单价、有边际曲线、要采购决策
A03 System 2 的隐喻陷阱	1 h	学会拆”模型在思考”这句拟人话术——大多是更多采样而非”想明白”

Week 1 闸门题（90 秒口答）：

“o3 比 GPT-4 强 20 分，这 20 分是能力强了还是算力烧多了？” 要点：分清训练期改权重（能力）vs 推理期烧 token（算力），两者成本结构/可控旋钮/失效模式全不同。引 A02 五词辨析·CoT 推理思考慢思考 Inference-scaling。
“reasoning_effort 这个参数你怎么理解？” 要点：不是质量挡位，是质量/延迟/成本三角上的滑杆——thinking token 按 output 费率计（通常比 input 贵 2–6 倍），且边际效用在高端常转负。引 A04 Reasoning Effort 作为可计费资源。

Week 1 复现指标：无（建坐标为主）。

Week 2：结构与病理（约 5.5 小时）—— 拆开”想更久”这个黑箱

节点	预计时长	你在做什么
S01 测试时计算的三种花法·采样验证搜索	2 h	★旗舰。把”想更久”拆成并行采样/序列修正/树搜索三条可单独定价的预算线
E03 数学代码强开放任务弱的能力剖面	1.5 h	学会用”可验证性梯度”而非”难度梯度”做选型第一刀
E02 Reasoning 反噬·过度思考与延迟灾难	1.5 h	看 overthinking 的量化证据，知道”无脑开 high 会更差”
Buffer	0.5 h	S01 超时用这块吸收

Week 2 闸门题：

“让模型多想一会儿，具体在花哪几种钱？” 要点：并行采样（延迟≈1次、唯一不牺牲延迟）/ 序列修正（延迟×N、能改对也能把对的改错）/ 树搜索（强依赖验证器、延迟随深度增长）。引 S01 测试时计算的三种花法·采样验证搜索。
“reasoning 模型适合给难任务用，对吧？” 要点：错。分流轴是可验证性不是难度——AIME（人类极难）被打穿到 96.7%，写安慰信（人类举手之劳）纹丝不动。引 E03 数学代码强开放任务弱的能力剖面。

Week 2 复现指标：扫读 R01 代码框架（约 20 分钟），为 Week 3 上手做准备。

Week 3：实例 + 动手（约 5.5 小时）

节点	预计时长	你在做什么
E01 o3 vs R1 vs Claude Extended Thinking 设计哲学	1.5 h	把三家产品还原成三种不可互换的商业赌注
G02 o1 到 R1 到当代演化详解	1 h	补时间纵轴：逐代代表作/推动力/瓶颈/被什么超越
R01 最小可运行·自洽采样投票	3 h（含跑通 2 h）	亲手跑通 ~50 行 self-consistency，亲眼看准确率—成本—延迟三角

Week 3 闸门题：

“o3、R1、Claude Extended Thinking 这三家，PM 怎么判断差异？” 要点：不在分数里，在设计哲学里——黑箱卖 token（o3 藏思考链护城河）/ 开源冲定价（R1 开源逼着显示思考链、放弃推理定价权）/ 半透明做协作（Claude 给 effort 旋钮 + summary）。引 E01 o3 vs R1 vs Claude Extended Thinking 设计哲学。
“你自己复现过推理吗？” 要点：跑过 R01 self-consistency，亲眼看到收益随 N 对数增长而成本随 N 线性——maj@8~maj@64 是甜蜜区，超过就是为对数尾巴付线性的钱。引 R01 最小可运行·自洽采样投票。

Week 3 复现指标：1 个可演示的 R01 demo（GitHub 链接或本地视频）+ 一句话复盘”我在哪个 N 看到收益拐头”。

三周总览复检表

维度	Week 1 末	Week 2 末	Week 3 末
能拆”能力 vs 算力”归因	✅	✅	✅
能说清三种花法		✅	✅
能按可验证性选型		✅	✅
能展示亲手跑过的 demo			✅
累计投入小时	5	10.5	16

路径 B：按 M1→M5 决策链跳转

适用对象：在岗 PM，按当前项目阶段跳读，不求一次读完。 总预计时长：按需取用（每节点 1–2 小时）。 前置依赖：先读 AI PM 知识图谱·总索引了解 M1-M5 决策链结构。 最终产出：每次跳读后能直接服务当前项目决策。

AI PM 知识图谱·总索引把 AI PM 工作分为五大决策链（M1 技术素养 → M2 工程落地 → M3 产品设计 → M4 商业模式 → M5 合规治理）。本专题节点在其中的分布与跳转锚点：

M1 技术素养（建立技术心智模型）

典型问题：“我要在面试/团队里讲清 reasoning 到底是什么”。

A02 五词辨析·CoT 推理思考慢思考 Inference-scaling — 1.5 h — 术语精度
A01 Reasoning 概念史·从 CoT 到 Test-Time Compute — 1.5 h — 历史纵深
A03 System 2 的隐喻陷阱 — 1 h — 拆拟人话术
G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索 — 1.5 h — 时间纵轴
G02 o1 到 R1 到当代演化详解 — 1 h — 逐代放大镜 M1 累计：约 6.5 小时。

M2 工程落地（选型、成本、路由）

典型问题：“这道任务该花哪种钱、开多少 effort、要不要自建路由”。

A04 Reasoning Effort 作为可计费资源 — 1 h — 把 effort 当生产要素
S01 测试时计算的三种花法·采样验证搜索 — 2 h — 三条预算线的成本-收益曲线
S02 训练侧 vs 推理侧 Reasoning 可替换栈 — 1.5 h — 训练 CapEx ↔ 推理 OpEx 替换汇率
R02 中型·Reasoning 预算路由器 — 4 h（含跑通）— 难度分类器 + effort 映射 + 降级回路
对接 m209 - 推理成本控制手册的 cascade 决策树 — 1 h — 怎么省（路由/缓存/计费） M2 累计：约 9.5 小时（含复现）。

M3 产品设计（交互、信任、可解释）

典型问题：“我要做推理产品的 PRD，或评估供应商的可信度设计”。

E01 o3 vs R1 vs Claude Extended Thinking 设计哲学 — 1.5 h — 思考可见性 = 印象管理光谱
E02 Reasoning 反噬·过度思考与延迟灾难 — 1.5 h — 延迟/成本三角塌陷的产品代价
A04 Reasoning Effort 作为可计费资源 — 1 h — effort 作为可暴露给用户的旋钮
落到 UX 对策：p304 - 防御性 UX：对抗延迟与幻觉、p305 - 信任架构与可解释性设计 — 各 1 h M3 累计：约 6 小时。

M4 商业模式（本专题 hint，未单独建专题）

E01 o3 vs R1 vs Claude Extended Thinking 设计哲学的”三种产品赌注”段落给出 reasoning 的定价权之争（黑箱按档卖 token / 开源放弃推理定价权 / 半透明做协作溢价）。
A04 Reasoning Effort 作为可计费资源的边际经济学段落给出”思考时长可计费”这一新收入变量的定价逻辑。

M5 合规治理（本专题 hint，未单独建专题）

E01 o3 vs R1 vs Claude Extended Thinking 设计哲学的 hidden CoT 段落涉及”思考链不可见”对可审计性的硬约束（呼应 Stuart Russell 可纠正性）。
S03 Reasoning 与 Agent 循环的耦合点的方差累积段落涉及 Agent 失控的责任归属——reasoning 引擎不稳定是下游放大的源头。

路径 C：紧迫度优先（标签视图）

适用对象：碎片时间多、整段时间少；或临近某事件（面试、选型会、对外汇报）。 总预计时长：按档累加。 最终产出：按档完成后达到对应能力门槛。

红 🔴 求职必读（5 篇，约 7.5 小时）

不读这 5 篇直接面试 AI PM 中级岗有非常高失败概率：

节点	时长	跳过的代价
A02 五词辨析·CoT 推理思考慢思考 Inference-scaling	1.5 h	第一题”o3 强是能力还是算力”就答崩
A01 Reasoning 概念史·从 CoT 到 Test-Time Compute	1.5 h	把 o1 当”更长的 CoT”，暴露用 2022 定义谈 2025 产品
S01 测试时计算的三种花法·采样验证搜索	2 h	”想更久花哪几种钱”答不上，没有可操作决策表
E01 o3 vs R1 vs Claude Extended Thinking 设计哲学	1.5 h	供应商对比题只会比 feature list，比不出商业赌注
E03 数学代码强开放任务弱的能力剖面	1 h	把分流轴搞成难度而非可验证性，选型第一刀切错

总计：约 7.5 小时（5 天内可完成）。

橙 🟠 复现优先（3 篇，约 11 小时含上手）

不亲手做过的 PM 与工程师对话会被识破：

节点	时长（含上手）	跳过的代价
R01 最小可运行·自洽采样投票	3 h	”你写过吗” → “没”；没亲眼见过对数收益曲线
R02 中型·Reasoning 预算路由器	4 h	答不出”双峰请求分布怎么路由 effort”
R03 进阶·Verifier-guided 搜索	4 h	验证器/PRM/树搜索仍停留在概念，不知五大翻车点

总计：约 11 小时（建议留 1–2 周）。

黄 🟡 前沿与机制追踪（4 篇，约 6 小时）

落在 2025–2026 才被反复讨论、或承重跨域框架最重的几篇：

节点	时长	跳过的代价
G02 o1 到 R1 到当代演化详解	1.5 h	答不出 R1-Zero “涌现 vs 解锁”之争、GRPO、benchmark 通胀
S02 训练侧 vs 推理侧 Reasoning 可替换栈	1.5 h	不懂”小模型+TTC 何时能替更大模型、何时不能”
S03 Reasoning 与 Agent 循环的耦合点	1.5 h	把 Agent 失控归咎工具/prompt，看不见 reasoning 方差累积
E02 Reasoning 反噬·过度思考与延迟灾难	1.5 h	答不出 overthinking 倒 U 曲线的量化证据

总计：约 6 小时。

蓝 🔵 延展加分（按需）

深化辨义与谱系底座：A03 System 2 的隐喻陷阱、A04 Reasoning Effort 作为可计费资源、G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索（共 3 篇 × 1–1.5 h ≈ 3.5 小时）。

紧迫度路径总时长汇总

档	节点数	累计时长	累计后能力门槛
红 🔴	5	7.5 h	中级面试技术题能撑过去
红+橙	8	18.5 h	中级面试 + 工程对话不夹生
红+橙+黄	12	24.5 h	中级面试 + 前沿/机制能聊
全档	15	28 h	完整知识立方

5. 读完后的元能力检验（12 个自测问题）

这 12 题不是”考试”，是读完后用来自检的工具。每题附**及格线 / 优秀线 / 反例（错答会怎样）**三档——反例那一档最重要，它告诉你”答成什么样会被面试官当场识破”。

5.1 “o3 比 GPT-4 强，这强是怎么来的？”

要点：分清两条不可通约的因果链——模型能力变强（训练期改权重，永久、全局）vs 这次回答多烧算力（推理期 TTC，每 query 重新付费）。
及格线：能指出”强”可能来自其中任一条，要追问是哪条。
优秀线：能引 ARC-AGI 反例——o3 在 ARC-AGI-1 高算力档 87.5%（烧 172× 算力），抗刷分的 ARC-AGI-2 上仅 2.9%（人类约 60%），说明黑箱里相当部分是对 benchmark 分布的优化而非可迁移能力。引 A02 五词辨析·CoT 推理思考慢思考 Inference-scaling / E01 o3 vs R1 vs Claude Extended Thinking 设计哲学。
反例：答”o3 就是更强的模型”——直接暴露归因塌缩，面试官会追问”强在权重里还是强在多烧的钱里？“答不上即被判”概念没拆开”。

5.2 “reasoning、thinking、test-time compute 是一回事吗？”

要点：分属能力层（reasoning，权重里有没有，永久、可蒸馏）/ 产品层（thinking，UI 给”思考 token”起的名）/ 度量层（TTC，烧了多少算力）——两两不可通约。
及格线：能说出三者不是同义词。
优秀线：能引维特根斯坦语言游戏——“o3 会思考了”是语法混乱（把度量/产品话术当能力命题），不是真命题。引 A02 五词辨析·CoT 推理思考慢思考 Inference-scaling / A03 System 2 的隐喻陷阱。
反例：答”差不多，都是让模型多想想”——暴露你把度量当方法、把曲线当能力，2025 年 AI PM 最高频认知事故。

5.3 “把 o1 理解成’更长的 CoT’对不对？”

要点：错。CoT 是 prompt 层方法（权重不变），o1 是训练范式切换（用大规模 RL 把推理焊进权重）——这是 Kuhn 意义上的格式塔切换，不是连续改良。
及格线：知道 o1 来自训练而非提示。
优秀线：能说清误读的产品后果——把训练范式切换当 prompt 改良，会在选型和成本估算上做错决策（以为”上了 reasoning model 就不用写 CoT prompt”）。引 A01 Reasoning 概念史·从 CoT 到 Test-Time Compute。
反例：答”o1 就是内置了 CoT”——暴露你在用 2022 年的概念谈 2024 年的产品。

5.4 “让模型’多想一会儿’，具体在花哪几种钱？”

要点：并行采样（独立答 N 遍投票/选优，延迟≈1 次）/ 序列修正（一个答案反复改，延迟×N）/ 树搜索（验证器引导候选树，延迟随深度增长、强依赖验证器）。
及格线：能说出三种且知道延迟代价不同。
优秀线：能指出两个”长 CoT vs 短 CoT”框架问不出来的决策——(1) 任务能不能并行（决定延迟）；(2) 有没有够好的验证器（决定树搜索天花板）。引 S01 测试时计算的三种花法·采样验证搜索。
反例：答”就是把思考链拉长”——把两个正交维度（生成多少候选 × 如何筛选）压成一维，选型时看不见最致命的两个变量。

5.5 “self-consistency 多采样几次，准确率会一直涨吗？”

要点：不会。成本随 N 线性，收益随 N 对数——边际准确率半衰。
及格线：知道收益会递减。
优秀线：能给数字——o1 在 AIME 2024 单次 74%、64 次投票 83%（成本×64 拿 +9pt）、1000+ 次配重排到 93%（再×16 拿 +10pt）；甜蜜区通常在 maj@8~maj@64，超过就是为对数尾巴付线性的钱。引 S01 测试时计算的三种花法·采样验证搜索 / R01 最小可运行·自洽采样投票。
反例：答”采样越多越准，多花钱就行”——暴露没动过手，没见过收益拐头。

5.6 “reasoning 模型适合用在难任务上，对吧？”

要点：分流轴是可验证性不是难度——能被一个不比模型更聪明的程序自动判对错的任务（数学/代码/选择题），reasoning 大概率有用；对错由人主观裁定的任务（文案/安慰信/共情），边际收益迅速塌缩甚至为负。
及格线：能反对”按难度分流”。
优秀线：能给反例数字——AIME（人类极难）o3 到 96.7%、o4-mini 配工具到 99.5%，而”写得体的安慰信”（人类举手之劳）无稳定增益；并能接到机制：RLVR 只在有验证器处生长（Polanyi 默会知识无法形式化）。引 E03 数学代码强开放任务弱的能力剖面。
反例：答”难的就上 reasoning”——选型第一刀就切错，会把一堆开放/创意任务误派给推理模型还掉点。

5.7 “无脑把 reasoning_effort 开到 high，最坏会怎样？”

要点：质量、延迟、成本三角同时塌陷——overthinking 在简单题上是”加量加价且掉点”三杀。
及格线：知道简单题开 high 不划算。
优秀线：能给量化证据——推理模型常规数学任务平均约 6,780 token vs 标准 Phi-4 的约 378.6 token（近 18×），Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%（arXiv:2507.04023 Table 2/§5.3）；R1-32B 在 AIME 上 12K token 见顶 55.8%、16K 回落 54.9%，推理超过约 7,000 token 后”把对的改错”开始超过”把错的改对”。引 E02 Reasoning 反噬·过度思考与延迟灾难。
反例：答”开 high 顶多慢点贵点，质量总不会差”——暴露你信”边际收益恒为正”的单调假设，没看过倒 U 曲线。

5.8 “effort 是个质量挡位吗？”

要点：不是挡位，是滑杆——有单价（thinking token 按 output 费率，通常比 input 贵 2–6 倍）、有边际效用曲线（高端常转负）、需要逐请求采购决策（不是全局拉满）。
及格线：知道开 effort 要花真金白银和墙钟时间。
优秀线：能引边际经济学——最优点在”边际产出=边际成本”而非”产出最大化”，overthinking = 边际产出转负，Simon 的 satisficing 是其认识论祖先。引 A04 Reasoning Effort 作为可计费资源。
反例：答”重要任务拨 high、不重要拨 low”——离散挡位心智模型，看不见”同一产品里不同请求该用不同档”的路由空间。

5.9 “o3、R1、Claude Extended Thinking 凭什么判断差异？分数都差不多。”

要点：差异不在分数（会过期），在设计哲学=三种不可分割的产品赌注：思考可见性、effort 旋钮给不给、权重开不开，三轴互相锁死。
及格线：能说出”藏思考链 / 开源 / 半透明”三种姿态。
优秀线：能讲赌注逻辑——o3 隐藏思考链是因为 RL-reasoning 护城河建立在”对手看不到推理轨迹（防蒸馏）“；R1 开源逼着显示思考链、也逼着放弃推理定价权；Claude 的 effort 旋钮前提是闭源+半透明；并能接戈夫曼前台/后台（“思考可见性”= 印象管理光谱）。引 E01 o3 vs R1 vs Claude Extended Thinking 设计哲学。
反例：答”o3 分最高所以最强”——把会过期的 benchmark 当结构性差异，且无视 ARC-AGI-2 的 2.9% 反例。

5.10 “R1-Zero 的 aha moment 是 RL 凭空创造了推理能力吗？”

要点：是”涌现 vs 解锁”的真实争议，不该说死。R1-Zero 纯 RL 在 AIME 2024 pass@1 71.0%、多数投票 86.7% 确实惊人，但有反例提示更可能是”基座解锁”而非凭空创造。
及格线：知道这是有争议的，不照搬”RL 创造推理”叙事。
优秀线：能列反例——V3-Base epoch 0 已有迹象、无模板的 Qwen2.5 亦强、GRPO 有 length bias（arXiv:2503.20783 一类工作对涌现叙事的祛魅）；并指出对 PM 的实操含义：若主要是解锁，则 RL 推理天花板由基座质量决定，选型/自建更该看基座。引 G02 o1 到 R1 到当代演化详解 / G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索。
反例：答”R1 证明 RL 能凭空长出推理”——把早期 confirmation bias 当铁证，会高估纯 RL trick 的迁移性。

5.11 “Agent 跑飞了，第一反应去改 prompt 还是别的？”

要点：很多失控不是工具/prompt 的错，是 reasoning 这台高增益引擎本身不稳定的下游放大——把 Agent 当带反馈的采样-验证控制系统看，reasoning 是回路里增益最高、方差沿时间累积的环节。
及格线：知道要怀疑 reasoning 而不是只改 prompt。
优秀线：能给阻尼器——验证器、步数上限、effort 下调；并指出失效边界：在短 horizon（n≤3）+强外部验证器场景，“reasoning 方差是失控主因”这条判断会失效。引 S03 Reasoning 与 Agent 循环的耦合点（与 0411 的 S03 Harness Engineering 全景互补）。
反例：答”加 few-shot、换个工具”——在错误的地方找 bug，因为”规划器+执行器”框架把 reasoning 当一次性确定动作。

5.12 “想自建一套推理增强，从哪起步、进阶到哪？”

要点：三档——R01 self-consistency（~50 行、唯一不需验证器/训练的入口）→ R02 预算路由器（难度分类器+effort 映射+降级回路）→ R03 verifier-guided 搜索（Best-of-N / Beam / MCTS + ORM/PRM/确定性验证器）。
及格线：能说出从 self-consistency 起步。
优秀线：能点破各档的”看起来省钱实际更贵”陷阱——R02 在请求分布接近单峰时路由净亏（直接固定 effort 即可）；R03 的 verifier 是天花板不是地板，会被 reward hacking 钻空子（Goodhart 在搜索回路里的复现）。引 R01 最小可运行·自洽采样投票 / R02 中型·Reasoning 预算路由器 / R03 进阶·Verifier-guided 搜索。
反例：答”直接上 MCTS/树搜索最强”——跳过最便宜的入口、且无视”没有够好的验证器，树搜索的天花板就被钉死”。

[!tip] 自测评分法 12 题里 ≥8 题达”及格线”= 可以去面中级 AI PM 技术轮；≥6 题达”优秀线”= 能扛住有准备的反方面试官；任何一题落到”反例”那档，回去重读对应节点——那些是会被当场识破的硬伤。

6. 反方对话训练（推理领域 6 追问）

12 道自测题练的是”我能不能讲清楚”；反方对话训练练的是**“有人不同意我、还带着主流立场来打，我能不能接得住”。本专题的所有事实，原封不动可以被反方用来写一篇”reasoning 被夸大、别迷信推理模型”的反向专题——所以这一节不是背诵，是亲手训练对话能力**：每题先承认对方对的部分，再标注本专题坚持的边界与赌注（“接受+边界”，不是反驳）。

练习方式：找人扮演反方面试官，每天练 1 题、每题 15 分钟，录音回听卡顿处；第 7 天复盘，把 6 个对话练到”不依赖临场、30 秒开口、论证带具体证据”。

6 个必练对话

反方追问	答题要点（接受 + 边界）	对应节点
”reasoning 模型不就是更强的模型吗？“	接受：在可验证任务（数学/代码/选择题）上，它确实是同权重下显著更强的产物。边界：它不是”全面更强”——能力沿可验证性梯度而非难度梯度上升，在开放/主观任务上无稳定增益甚至为负；而且很多”强”来自这次多烧的推理算力（每 query 重付费），不是权重里多了通用能力（ARC-AGI-2 2.9% 是反例）。“更强的模型”这个说法把三件不可通约的事（能力/算力/任务域）糊成一团。	A02 五词辨析·CoT 推理思考慢思考 Inference-scaling、E03 数学代码强开放任务弱的能力剖面
”开了 thinking 总比不开好吧？“	接受：对难题，test-time scaling 确实成立，多想常常更准。边界：曲线是倒 U 形不是单调上升，最优点随难度漂移——简单题上开 thinking 是”加量加价且掉点”三杀（Phi-4-reasoning-plus ~6,780 vs Phi-4 ~378.6 token、准确率 69.54% vs 78.92% 反降，arXiv:2507.04023；R1-32B AIME 12K 见顶 55.8%、16K 回落 54.9%；超约 7,000 token 后把对的改错开始超过把错的改对）。“总比不开好”信的是”边际收益恒为正”，这个假设被 OptimalThinkingBench 类工作钉死为假。	E02 Reasoning 反噬·过度思考与延迟灾难、A04 Reasoning Effort 作为可计费资源
”o3 是不是接近 AGI 了？“	接受：o3 在可验证 benchmark 上的跃迁是真的（AIME 96.7%、Codeforces Elo 2,727、ARC-AGI-1 高算力 87.5%），算力暴力是 Sutton”苦涩教训”的又一次胜利。边界：同一模型在抗刷分的 ARC-AGI-2 上只有 2.9%（人类约 60%），说明黑箱里相当部分是对特定 benchmark 分布的优化而非可迁移通用能力；Kambhampati 一类批评（“LLM 是近似检索非有原则推理”）值得认真对待。PM 的立场是”吃可观测行为、不等哲学定论”，但也绝不能把单一 benchmark 高分读成 AGI 信号。	E01 o3 vs R1 vs Claude Extended Thinking 设计哲学、G02 o1 到 R1 到当代演化详解、A01 Reasoning 概念史·从 CoT 到 Test-Time Compute
”CoT 和 reasoning 有区别吗？不都是一步步想？“	接受：两者输出形态都”看起来像一步步推理”，CoT 历史上确实是 reasoning 的先声。边界：CoT 是 prompt 层方法（权重不变、推理期诱导出中间步骤），trained reasoning 是训练范式（用 RL 把推理焊进权重、永久、可蒸馏）——一个是”教学生背解题模板”，一个是”让学生在考场真演算”，作用机制/成本结构/可控性全不可通约。把 o1 当”内置 CoT”会在选型和成本估算上做错决策。	A01 Reasoning 概念史·从 CoT 到 Test-Time Compute、A02 五词辨析·CoT 推理思考慢思考 Inference-scaling
”验证器引导搜索肯定比暴力多采样强吧？“	接受：有了好验证器，树搜索/Best-of-N 能把算力从被动消耗变成主动投资，常优于纯投票。边界：验证器是天花板不是地板——它有上界、会失效、会被 reward hacking 钻空子（Goodhart 在搜索回路里复现）；而且有反证（Yu et al. 2025, arXiv:2502.00271：大样本下验证器引导搜索可能劣于重复采样），生成器/验证器分布不一致（OOD）时树搜索会系统性误导。没有够好的验证器，先别上树搜索。	R03 进阶·Verifier-guided 搜索、S01 测试时计算的三种花法·采样验证搜索
”reasoning 想得更久，应该能减少幻觉吧？“	接受：在可验证、需多步推导的任务上，显式推理 + 验证确实能降一部分错误。边界：在知识密集任务上，增加推理算力反而增加幻觉（模型在更长生成里编织更自洽的错误，arXiv:2509.06861 一类证据）——“想更久 = 更可信”是危险直觉。幻觉的不可消除性（c13 - 幻觉的不可消除性）不会被 reasoning 解决，reasoning 只是把错误包装得更像样。	E02 Reasoning 反噬·过度思考与延迟灾难、E03 数学代码强开放任务弱的能力剖面、c13 - 幻觉的不可消除性

为什么这一训练是出版就绪的关键：本专题接入了 Snell / Yu / Kambhampati / LeCun / Sutton / Russell 等真实对手立场，但接入 ≠ 会用。这 6 题把藏在 15 个节点末尾的”对手框架回应”转译为可在面试中即时调用的显性肌肉记忆——练完即具备”经得起业界反方拷问的 AI PM”对话能力。

7. 反馈与迭代

本指南是 v1。Rick 使用一段时间后，建议在本节追加三类标注：

太难的节点：哪些节点预计时长明显低估（用了 2 倍以上时间），需拆细或加前置依赖说明（S01 旗舰最厚，最可能超时）。
太浅的节点：哪些节点读完仍”应付不了那道面试题”，需补深度。
缺失的场景：哪些问题没有合适节点可读——本专题已知的最大留白是创意/开放任务的 reasoning 增益到底有没有（学界量化几乎全在可验证域，开放任务连”对不对”都无法被脚本判定，见 E03 数学代码强开放任务弱的能力剖面），这本身就是”开放任务弱”最深的注脚，也是值得专门追踪的 PM 决策盲区。

7.1 本专题局限的显式承担

承担局限本身，就是与对手立场的真诚对话。

局限 1：本专题是辨义层 + 决策层，不是完整 reasoning 技术教程。 它不复述 PPO/GRPO 机制、不教你训一个推理模型；要训模型请走强化学习与一手论文。面试遇到”你会训推理模型吗”，Rick 应诚实说”我训练的是判断力——拆归因、选花法、定 effort、自建复现，而非从零训权重”。
局限 2：成本数字多为量级示意而非一手报价。 “output 费率比 input 贵 2–6 倍”等来自二手来源（codeant.ai 系），真实选型须以厂商当期 price list 为准。
局限 3：两个最重的承重跨域框架（控制论、认知科学）目前无实体节点。 采样-验证回路/过调阻尼/必要多样性以普通文本散落在 S01/S02/S03/E02/R 系列——若 Rick 要把它做成可复用资产，可考虑单独建库（控制论、认知科学专题均为待建，见总览待建概念清单），届时本指南回链。

验收档案查阅：本指南连同 15 个节点都经过多轮批判性同行评议，过程档案保存在 _topic_factory/0433-reasoning/（宪章 / critiques / 改稿快照）。这个迭代过程本身是一份元学习材料——它展示”用 AI 写 AI 知识，必须经过批判性同行评议才能成为可信知识”，呼应 AI概念滥用反思的核心主张。

8. 关联节点（双链密度 ≥20）

[!todo] 待建概念清单（本指南登记，绝不在主库建 stub/概念卡/人物卡；引用时已降级为普通文本）

跨域承重专题（均已入库，回链至各自总览）：评测系统化专题、控制论系统化专题、认知科学系统化专题——控制论与认知科学是本专题最重的两个跨域承重框架，现已在主库发布，跨专题引用已回链至总览。

算法/机制概念（本指南正文中出现、主库无卡）：GRPO、RLVR、PRM / ORM、Self-Consistency、Best-of-N、MCTS / Beam Search、reward hacking。

产品参数/benchmark：reasoning_effort 旋钮、ARC-AGI / ARC-AGI-2、OptimalThinkingBench、Overthinking Score。

人物（不建人物卡）：Subbarao Kambhampati、Yann LeCun、Rich Sutton、Stuart Russell、Herbert Simon、Erving Goffman、Michael Polanyi、Daniel Kahneman、Thomas Kuhn。

修订日志

2026-06-12 内审修复：§5.7 优秀线与 §6 反方对话训练里的 Phi-4 overthinking 数字，来源由全专题误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》（Srivastava et al., Virginia Tech）Table 2/§5.3，并补全可引的准确率对（Phi-4-reasoning-plus 69.54% vs Phi-4 78.92%、token ~6,780 vs ~378.6）。背景：6,780/378/69.54/78.92 四个数此前在 A01/A03/R02/G02 当真值、E02/A04 标〔待核实〕——经 WebFetch 复核 2505.00127/2504.21318 两篇全文均不含该组数字，本轮全专题 11 节点统一为 2507.04023 真值口径。全专题 live 双链经全库（含别名）核验 0 死链。
2026-06-11 P3.4 校链：§8.6 待建清单中 0412/0420/0426 现已入库（带 "NNNN 总览" 别名），跨专题引用恢复为真 可读名 链、删除”不存在/降级为普通文本”过期注解。其余 8.x 双链经核验均解析成功；GRPO/RLVR/PRM 等算法概念卡确不存在，按 rule-4 保留为普通文本。
2026-06-07 R0（综合 Agent）：首版 README。三路径各标时长/前置/产出（A 速通约 16 h 分三周设能力闸门、B 决策链 M1–M5、C 紧迫度红橙黄蓝 28 h 全档）；§5 12 道自测题每题”及格线/优秀线/反例”三档；§6 推理领域 6 追问反方对话训练（“reasoning 不就是更强的模型吗 / 开 thinking 总比不开好吧 / o3 接近 AGI 了吗 / CoT 和 reasoning 有区别吗 / 验证器搜索肯定比暴力采样强吧 / 想更久能减幻觉吧”），均”接受+边界”并锚到真实节点与已核实数字（87.5% vs 2.9%、6,780 vs 378 token、12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 翻转点、AIME 96.7%、o1 74%→83%→93%）；§8 双链全部为磁盘真实 basename（15 节点 Bash 核验）+ 主库已确认锚点；0412/0420/0426 等不存在前缀一律降级为普通文本并登记待建清单，未在主库建任何 stub。

README·0433·多视图阅读指南