README·0433·多视图阅读指南
README·多视图阅读指南
一句话定义:本指南是 0433 专题 15 个节点的三套读法——分别对应”转型 PM 求职速通”、“按决策链跳转”、“按紧迫度优先”三种 Rick 在不同时段会切换的身份模式;每条路径都标注预计时长、前置依赖、产出指标,不允许”很快读完”这类无锚点话术。读完后用 §5 的 12 道自测题(每题带及格线/优秀线/反例)自检,用 §6 的反方对话训练把”reasoning ≠ thinking ≠ test-time compute”练成肌肉记忆。
序:为什么推理专题需要多视图
转型 PM 不是一种状态,而是多种状态在不同周轮流出现。同一份内容,求职前最后一周读和入职第三个月做选型时读,需要的切入路径完全不同。强行单线性读完 15 个节点,会出现三种典型失败:
- 熵增式遗忘:按目录顺序读完,三天后只记得最后两篇。
- 抽象层错位:读到 S01 三种花法时还没建立 A02 五词辨析的坐标,分不清”采样/验证/搜索”和”CoT/reasoning/thinking”是两套正交的词。
- 临场失血:面试当天才发现 R01 没动过手,“能背 self-consistency 是什么,但没亲眼见过它的对数收益曲线”。
所以本专题不提供”标准读法”,而提供三套有锚点的读法:
| 身份模式 | 触发场景 | 对应路径 |
|---|---|---|
| 求职转型者 | 3 个月内有 AI PM 面试压力,需建立完整心智模型 | 路径 A(速通,约 16 h) |
| 工作日常 PM | 在岗或在做选型/成本方案,按当前决策跳读 | 路径 B(决策链,按需取用) |
| 碎片学习者 | 通勤、周末、紧迫度不均;或临近某事件 | 路径 C(红橙黄蓝四档) |
三条路径共用同一个节点池,可在不同周切换而无须重读。
[!note] 本专题与 0411 Agent 专题的读法差异 0411 是 22 节点、强调”代际感 + 架构剖面”;本专题只有 15 节点,但辨义负载更重——头号失败不是”不知道有几代”,而是”把五个互相不可通约的词当同义词用”。所以本指南的速通路径把 A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling 放在第一篇,而不是按字母序从 A01 起。
路径 A:转型 PM 速通(求职导向)
适用对象:3 个月内有 AI PM 面试压力的 Rick;零碎时间能稳定凑出每天 1–1.5 小时。 总预计时长:约 16 小时(含 R01 复现 3 小时)。 前置依赖:已读过 c11 - System 2 思维与 Test-Time Compute 与 m209 - 推理成本控制手册 的目录级摘要(不必精读——本专题是它们的升级对照)。 最终产出:能在面试 30 秒内拆穿”o3 比 GPT-4 强”的归因塌缩 + 一份能跑的 R01 self-consistency demo。
速通分三周,每周一个能力闸门。每周末必须能口答下面的”闸门题”,答不上不要进下一周——本专题的节点高度互锁,跳级读会在 S01 撞墙。
Week 1:术语坐标(约 5 小时)—— 防滑变疫苗
| 节点 | 预计时长 | 你在做什么 |
|---|---|---|
| A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling | 1.5 h | 建立”层 × 时间”二维坐标,知道 reasoning 是唯一在”训练期/改权重”格子里的词 |
| A01 Reasoning 概念史·从 CoT 到 Test-Time Compute | 1.5 h | 建立”这个词 2022→2025 指代物换了三次”的元认知 |
| A04 Reasoning Effort 作为可计费资源 | 1 h | 学会问”effort 是开关还是滑杆”——它有单价、有边际曲线、要采购决策 |
| A03 System 2 的隐喻陷阱 | 1 h | 学会拆”模型在思考”这句拟人话术——大多是更多采样而非”想明白” |
Week 1 闸门题(90 秒口答):
- “o3 比 GPT-4 强 20 分,这 20 分是能力强了还是算力烧多了?” 要点:分清训练期改权重(能力)vs 推理期烧 token(算力),两者成本结构/可控旋钮/失效模式全不同。引 A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling。
- “reasoning_effort 这个参数你怎么理解?” 要点:不是质量挡位,是质量/延迟/成本三角上的滑杆——thinking token 按 output 费率计(通常比 input 贵 2–6 倍),且边际效用在高端常转负。引 A04 Reasoning Effort 作为可计费资源。
Week 1 复现指标:无(建坐标为主)。
Week 2:结构与病理(约 5.5 小时)—— 拆开”想更久”这个黑箱
| 节点 | 预计时长 | 你在做什么 |
|---|---|---|
| S01 测试时计算的三种花法·采样 验证 搜索 | 2 h | ★旗舰。把”想更久”拆成并行采样/序列修正/树搜索三条可单独定价的预算线 |
| E03 数学代码强开放任务弱的能力剖面 | 1.5 h | 学会用”可验证性梯度”而非”难度梯度”做选型第一刀 |
| E02 Reasoning 反噬·过度思考与延迟灾难 | 1.5 h | 看 overthinking 的量化证据,知道”无脑开 high 会更差” |
| Buffer | 0.5 h | S01 超时用这块吸收 |
Week 2 闸门题:
- “让模型多想一会儿,具体在花哪几种钱?” 要点:并行采样(延迟≈1次、唯一不牺牲延迟)/ 序列修正(延迟×N、能改对也能把对的改错)/ 树搜索(强依赖验证器、延迟随深度增长)。引 S01 测试时计算的三种花法·采样 验证 搜索。
- “reasoning 模型适合给难任务用,对吧?” 要点:错。分流轴是可验证性不是难度——AIME(人类极难)被打穿到 96.7%,写安慰信(人类举手之劳)纹丝不动。引 E03 数学代码强开放任务弱的能力剖面。
Week 2 复现指标:扫读 R01 代码框架(约 20 分钟),为 Week 3 上手做准备。
Week 3:实例 + 动手(约 5.5 小时)
| 节点 | 预计时长 | 你在做什么 |
|---|---|---|
| E01 o3 vs R1 vs Claude Extended Thinking 设计哲学 | 1.5 h | 把三家产品还原成三种不可互换的商业赌注 |
| G02 o1 到 R1 到当代演化详解 | 1 h | 补时间纵轴:逐代代表作/推动力/瓶颈/被什么超越 |
| R01 最小可运行·自洽采样投票 | 3 h(含跑通 2 h) | 亲手跑通 ~50 行 self-consistency,亲眼看准确率—成本—延迟三角 |
Week 3 闸门题:
- “o3、R1、Claude Extended Thinking 这三家,PM 怎么判断差异?” 要点:不在分数里,在设计哲学里——黑箱卖 token(o3 藏思考链护城河)/ 开源冲定价(R1 开源逼着显示思考链、放弃推理定价权)/ 半透明做协作(Claude 给 effort 旋钮 + summary)。引 E01 o3 vs R1 vs Claude Extended Thinking 设计哲学。
- “你自己复现过推理吗?” 要点:跑过 R01 self-consistency,亲眼看到收益随 N 对数增长而成本随 N 线性——maj@8~maj@64 是甜蜜区,超过就是为对数尾巴付线性的钱。引 R01 最小可运行·自洽采样投票。
Week 3 复现指标:1 个可演示的 R01 demo(GitHub 链接或本地视频)+ 一句话复盘”我在哪个 N 看到收益拐头”。
三周总览复检表
| 维度 | Week 1 末 | Week 2 末 | Week 3 末 |
|---|---|---|---|
| 能拆”能力 vs 算力”归因 | ✅ | ✅ | ✅ |
| 能说清三种花法 | ✅ | ✅ | |
| 能按可验证性选型 | ✅ | ✅ | |
| 能展示亲手跑过的 demo | ✅ | ||
| 累计投入小时 | 5 | 10.5 | 16 |
路径 B:按 M1→M5 决策链跳转
适用对象:在岗 PM,按当前项目阶段跳读,不求一次读完。 总预计时长:按需取用(每节点 1–2 小时)。 前置依赖:先读 AI PM 知识图谱·总索引 了解 M1-M5 决策链结构。 最终产出:每次跳读后能直接服务当前项目决策。
AI PM 知识图谱·总索引 把 AI PM 工作分为五大决策链(M1 技术素养 → M2 工程落地 → M3 产品设计 → M4 商业模式 → M5 合规治理)。本专题节点在其中的分布与跳转锚点:
M1 技术素养(建立技术心智模型)
典型问题:“我要在面试/团队里讲清 reasoning 到底是什么”。
- A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling — 1.5 h — 术语精度
- A01 Reasoning 概念史·从 CoT 到 Test-Time Compute — 1.5 h — 历史纵深
- A03 System 2 的隐喻陷阱 — 1 h — 拆拟人话术
- G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索 — 1.5 h — 时间纵轴
- G02 o1 到 R1 到当代演化详解 — 1 h — 逐代放大镜 M1 累计:约 6.5 小时。
M2 工程落地(选型、成本、路由)
典型问题:“这道任务该花哪种钱、开多少 effort、要不要自建路由”。
- A04 Reasoning Effort 作为可计费资源 — 1 h — 把 effort 当生产要素
- S01 测试时计算的三种花法·采样 验证 搜索 — 2 h — 三条预算线的成本-收益曲线
- S02 训练侧 vs 推理侧 Reasoning 可替换栈 — 1.5 h — 训练 CapEx ↔ 推理 OpEx 替换汇率
- R02 中型·Reasoning 预算路由器 — 4 h(含跑通)— 难度分类器 + effort 映射 + 降级回路
- 对接 m209 - 推理成本控制手册 的 cascade 决策树 — 1 h — 怎么省(路由/缓存/计费) M2 累计:约 9.5 小时(含复现)。
M3 产品设计(交互、信任、可解释)
典型问题:“我要做推理产品的 PRD,或评估供应商的可信度设计”。
- E01 o3 vs R1 vs Claude Extended Thinking 设计哲学 — 1.5 h — 思考可见性 = 印象管理光谱
- E02 Reasoning 反噬·过度思考与延迟灾难 — 1.5 h — 延迟/成本三角塌陷的产品代价
- A04 Reasoning Effort 作为可计费资源 — 1 h — effort 作为可暴露给用户的旋钮
- 落到 UX 对策:p304 - 防御性 UX:对抗延迟与幻觉、p305 - 信任架构与可解释性设计 — 各 1 h M3 累计:约 6 小时。
M4 商业模式(本专题 hint,未单独建专题)
- E01 o3 vs R1 vs Claude Extended Thinking 设计哲学 的”三种产品赌注”段落给出 reasoning 的定价权之争(黑箱按档卖 token / 开源放弃推理定价权 / 半透明做协作溢价)。
- A04 Reasoning Effort 作为可计费资源 的边际经济学段落给出”思考时长可计费”这一新收入变量的定价逻辑。
M5 合规治理(本专题 hint,未单独建专题)
- E01 o3 vs R1 vs Claude Extended Thinking 设计哲学 的 hidden CoT 段落涉及”思考链不可见”对可审计性的硬约束(呼应 Stuart Russell 可纠正性)。
- S03 Reasoning 与 Agent 循环的耦合点 的方差累积段落涉及 Agent 失控的责任归属——reasoning 引擎不稳定是下游放大的源头。
路径 C:紧迫度优先(标签视图)
适用对象:碎片时间多、整段时间少;或临近某事件(面试、选型会、对外汇报)。 总预计时长:按档累加。 最终产出:按档完成后达到对应能力门槛。
红 🔴 求职必读(5 篇,约 7.5 小时)
不读这 5 篇直接面试 AI PM 中级岗有非常高失败概率:
| 节点 | 时长 | 跳过的代价 |
|---|---|---|
| A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling | 1.5 h | 第一题”o3 强是能力还是算力”就答崩 |
| A01 Reasoning 概念史·从 CoT 到 Test-Time Compute | 1.5 h | 把 o1 当”更长的 CoT”,暴露用 2022 定义谈 2025 产品 |
| S01 测试时计算的三种花法·采样 验证 搜索 | 2 h | ”想更久花哪几种钱”答不上,没有可操作决策表 |
| E01 o3 vs R1 vs Claude Extended Thinking 设计哲学 | 1.5 h | 供应商对比题只会比 feature list,比不出商业赌注 |
| E03 数学代码强开放任务弱的能力剖面 | 1 h | 把分流轴搞成难度而非可验证性,选型第一刀切错 |
总计:约 7.5 小时(5 天内可完成)。
橙 🟠 复现优先(3 篇,约 11 小时含上手)
不亲手做过的 PM 与工程师对话会被识破:
| 节点 | 时长(含上手) | 跳过的代价 |
|---|---|---|
| R01 最小可运行·自洽采样投票 | 3 h | ”你写过吗” → “没”;没亲眼见过对数收益曲线 |
| R02 中型·Reasoning 预算路由器 | 4 h | 答不出”双峰请求分布怎么路由 effort” |
| R03 进阶·Verifier-guided 搜索 | 4 h | 验证器/PRM/树搜索仍停留在概念,不知五大翻车点 |
总计:约 11 小时(建议留 1–2 周)。
黄 🟡 前沿与机制追踪(4 篇,约 6 小时)
落在 2025–2026 才被反复讨论、或承重跨域框架最重的几篇:
| 节点 | 时长 | 跳过的代价 |
|---|---|---|
| G02 o1 到 R1 到当代演化详解 | 1.5 h | 答不出 R1-Zero “涌现 vs 解锁”之争、GRPO、benchmark 通胀 |
| S02 训练侧 vs 推理侧 Reasoning 可替换栈 | 1.5 h | 不懂”小模型+TTC 何时能替更大模型、何时不能” |
| S03 Reasoning 与 Agent 循环的耦合点 | 1.5 h | 把 Agent 失控归咎工具/prompt,看不见 reasoning 方差累积 |
| E02 Reasoning 反噬·过度思考与延迟灾难 | 1.5 h | 答不出 overthinking 倒 U 曲线的量化证据 |
总计:约 6 小时。
蓝 🔵 延展加分(按需)
深化辨义与谱系底座:A03 System 2 的隐喻陷阱、A04 Reasoning Effort 作为可计费资源、G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索(共 3 篇 × 1–1.5 h ≈ 3.5 小时)。
紧迫度路径总时长汇总
| 档 | 节点数 | 累计时长 | 累计后能力门槛 |
|---|---|---|---|
| 红 🔴 | 5 | 7.5 h | 中级面试技术题能撑过去 |
| 红+橙 | 8 | 18.5 h | 中级面试 + 工程对话不夹生 |
| 红+橙+黄 | 12 | 24.5 h | 中级面试 + 前沿/机制能聊 |
| 全档 | 15 | 28 h | 完整知识立方 |
5. 读完后的元能力检验(12 个自测问题)
这 12 题不是”考试”,是读完后用来自检的工具。每题附**及格线 / 优秀线 / 反例(错答会怎样)**三档——反例那一档最重要,它告诉你”答成什么样会被面试官当场识破”。
5.1 “o3 比 GPT-4 强,这强是怎么来的?”
- 要点:分清两条不可通约的因果链——模型能力变强(训练期改权重,永久、全局)vs 这次回答多烧算力(推理期 TTC,每 query 重新付费)。
- 及格线:能指出”强”可能来自其中任一条,要追问是哪条。
- 优秀线:能引 ARC-AGI 反例——o3 在 ARC-AGI-1 高算力档 87.5%(烧 172× 算力),抗刷分的 ARC-AGI-2 上仅 2.9%(人类约 60%),说明黑箱里相当部分是对 benchmark 分布的优化而非可迁移能力。引 A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling / E01 o3 vs R1 vs Claude Extended Thinking 设计哲学。
- 反例:答”o3 就是更强的模型”——直接暴露归因塌缩,面试官会追问”强在权重里还是强在多烧的钱里?“答不上即被判”概念没拆开”。
5.2 “reasoning、thinking、test-time compute 是一回事吗?”
- 要点:分属能力层(reasoning,权重里有没有,永久、可蒸馏)/ 产品层(thinking,UI 给”思考 token”起的名)/ 度量层(TTC,烧了多少算力)——两两不可通约。
- 及格线:能说出三者不是同义词。
- 优秀线:能引维特根斯坦语言游戏——“o3 会思考了”是语法混乱(把度量/产品话术当能力命题),不是真命题。引 A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling / A03 System 2 的隐喻陷阱。
- 反例:答”差不多,都是让模型多想想”——暴露你把度量当方法、把曲线当能力,2025 年 AI PM 最高频认知事故。
5.3 “把 o1 理解成’更长的 CoT’对不对?”
- 要点:错。CoT 是 prompt 层方法(权重不变),o1 是训练范式切换(用大规模 RL 把推理焊进权重)——这是 Kuhn 意义上的格式塔切换,不是连续改良。
- 及格线:知道 o1 来自训练而非提示。
- 优秀线:能说清误读的产品后果——把训练范式切换当 prompt 改良,会在选型和成本估算上做错决策(以为”上了 reasoning model 就不用写 CoT prompt”)。引 A01 Reasoning 概念史·从 CoT 到 Test-Time Compute。
- 反例:答”o1 就是内置了 CoT”——暴露你在用 2022 年的概念谈 2024 年的产品。
5.4 “让模型’多想一会儿’,具体在花哪几种钱?”
- 要点:并行采样(独立答 N 遍投票/选优,延迟≈1 次)/ 序列修正(一个答案反复改,延迟×N)/ 树搜索(验证器引导候选树,延迟随深度增长、强依赖验证器)。
- 及格线:能说出三种且知道延迟代价不同。
- 优秀线:能指出两个”长 CoT vs 短 CoT”框架问不出来的决策——(1) 任务能不能并行(决定延迟);(2) 有没有够好的验证器(决定树搜索天花板)。引 S01 测试时计算的三种花法·采样 验证 搜索。
- 反例:答”就是把思考链拉长”——把两个正交维度(生成多少候选 × 如何筛选)压成一维,选型时看不见最致命的两个变量。
5.5 “self-consistency 多采样几次,准确率会一直涨吗?”
- 要点:不会。成本随 N 线性,收益随 N 对数——边际准确率半衰。
- 及格线:知道收益会递减。
- 优秀线:能给数字——o1 在 AIME 2024 单次 74%、64 次投票 83%(成本×64 拿 +9pt)、1000+ 次配重排到 93%(再×16 拿 +10pt);甜蜜区通常在 maj@8~maj@64,超过就是为对数尾巴付线性的钱。引 S01 测试时计算的三种花法·采样 验证 搜索 / R01 最小可运行·自洽采样投票。
- 反例:答”采样越多越准,多花钱就行”——暴露没动过手,没见过收益拐头。
5.6 “reasoning 模型适合用在难任务上,对吧?”
- 要点:分流轴是可验证性不是难度——能被一个不比模型更聪明的程序自动判对错的任务(数学/代码/选择题),reasoning 大概率有用;对错由人主观裁定的任务(文案/安慰信/共情),边际收益迅速塌缩甚至为负。
- 及格线:能反对”按难度分流”。
- 优秀线:能给反例数字——AIME(人类极难)o3 到 96.7%、o4-mini 配工具到 99.5%,而”写得体的安慰信”(人类举手之劳)无稳定增益;并能接到机制:RLVR 只在有验证器处生长(Polanyi 默会知识无法形式化)。引 E03 数学代码强开放任务弱的能力剖面。
- 反例:答”难的就上 reasoning”——选型第一刀就切错,会把一堆开放/创意任务误派给推理模型还掉点。
5.7 “无脑把 reasoning_effort 开到 high,最坏会怎样?”
- 要点:质量、延迟、成本三角同时塌陷——overthinking 在简单题上是”加量加价且掉点”三杀。
- 及格线:知道简单题开 high 不划算。
- 优秀线:能给量化证据——推理模型常规数学任务平均约 6,780 token vs 标准 Phi-4 的约 378.6 token(近 18×),Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%(arXiv:2507.04023 Table 2/§5.3);R1-32B 在 AIME 上 12K token 见顶 55.8%、16K 回落 54.9%,推理超过约 7,000 token 后”把对的改错”开始超过”把错的改对”。引 E02 Reasoning 反噬·过度思考与延迟灾难。
- 反例:答”开 high 顶多慢点贵点,质量总不会差”——暴露你信”边际收益恒为正”的单调假设,没看过倒 U 曲线。
5.8 “effort 是个质量挡位吗?”
- 要点:不是挡位,是滑杆——有单价(thinking token 按 output 费率,通常比 input 贵 2–6 倍)、有边际效用曲线(高端常转负)、需要逐请求采购决策(不是全局拉满)。
- 及格线:知道开 effort 要花真金白银和墙钟时间。
- 优秀线:能引边际经济学——最优点在”边际产出=边际成本”而非”产出最大化”,overthinking = 边际产出转负,Simon 的 satisficing 是其认识论祖先。引 A04 Reasoning Effort 作为可计费资源。
- 反例:答”重要任务拨 high、不重要拨 low”——离散挡位心智模型,看不见”同一产品里不同请求该用不同档”的路由空间。
5.9 “o3、R1、Claude Extended Thinking 凭什么判断差异?分数都差不多。”
- 要点:差异不在分数(会过期),在设计哲学=三种不可分割的产品赌注:思考可见性、effort 旋钮给不给、权重开不开,三轴互相锁死。
- 及格线:能说出”藏思考链 / 开源 / 半透明”三种姿态。
- 优秀线:能讲赌注逻辑——o3 隐藏思考链是因为 RL-reasoning 护城河建立在”对手看不到推理轨迹(防蒸馏)“;R1 开源逼着显示思考链、也逼着放弃推理定价权;Claude 的 effort 旋钮前提是闭源+半透明;并能接戈夫曼前台/后台(“思考可见性”= 印象管理光谱)。引 E01 o3 vs R1 vs Claude Extended Thinking 设计哲学。
- 反例:答”o3 分最高所以最强”——把会过期的 benchmark 当结构性差异,且无视 ARC-AGI-2 的 2.9% 反例。
5.10 “R1-Zero 的 aha moment 是 RL 凭空创造了推理能力吗?”
- 要点:是”涌现 vs 解锁”的真实争议,不该说死。R1-Zero 纯 RL 在 AIME 2024 pass@1 71.0%、多数投票 86.7% 确实惊人,但有反例提示更可能是”基座解锁”而非凭空创造。
- 及格线:知道这是有争议的,不照搬”RL 创造推理”叙事。
- 优秀线:能列反例——V3-Base epoch 0 已有迹象、无模板的 Qwen2.5 亦强、GRPO 有 length bias(arXiv:2503.20783 一类工作对涌现叙事的祛魅);并指出对 PM 的实操含义:若主要是解锁,则 RL 推理天花板由基座质量决定,选型/自建更该看基座。引 G02 o1 到 R1 到当代演化详解 / G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索。
- 反例:答”R1 证明 RL 能凭空长出推理”——把早期 confirmation bias 当铁证,会高估纯 RL trick 的迁移性。
5.11 “Agent 跑飞了,第一反应去改 prompt 还是别的?”
- 要点:很多失控不是工具/prompt 的错,是 reasoning 这台高增益引擎本身不稳定的下游放大——把 Agent 当带反馈的采样-验证控制系统看,reasoning 是回路里增益最高、方差沿时间累积的环节。
- 及格线:知道要怀疑 reasoning 而不是只改 prompt。
- 优秀线:能给阻尼器——验证器、步数上限、effort 下调;并指出失效边界:在短 horizon(n≤3)+强外部验证器场景,“reasoning 方差是失控主因”这条判断会失效。引 S03 Reasoning 与 Agent 循环的耦合点(与 0411 的 S03 Harness Engineering 全景 互补)。
- 反例:答”加 few-shot、换个工具”——在错误的地方找 bug,因为”规划器+执行器”框架把 reasoning 当一次性确定动作。
5.12 “想自建一套推理增强,从哪起步、进阶到哪?”
- 要点:三档——R01 self-consistency(~50 行、唯一不需验证器/训练的入口)→ R02 预算路由器(难度分类器+effort 映射+降级回路)→ R03 verifier-guided 搜索(Best-of-N / Beam / MCTS + ORM/PRM/确定性验证器)。
- 及格线:能说出从 self-consistency 起步。
- 优秀线:能点破各档的”看起来省钱实际更贵”陷阱——R02 在请求分布接近单峰时路由净亏(直接固定 effort 即可);R03 的 verifier 是天花板不是地板,会被 reward hacking 钻空子(Goodhart 在搜索回路里的复现)。引 R01 最小可运行·自洽采样投票 / R02 中型·Reasoning 预算路由器 / R03 进阶·Verifier-guided 搜索。
- 反例:答”直接上 MCTS/树搜索最强”——跳过最便宜的入口、且无视”没有够好的验证器,树搜索的天花板就被钉死”。
[!tip] 自测评分法 12 题里 ≥8 题达”及格线”= 可以去面中级 AI PM 技术轮;≥6 题达”优秀线”= 能扛住有准备的反方面试官;任何一题落到”反例”那档,回去重读对应节点——那些是会被当场识破的硬伤。
6. 反方对话训练(推理领域 6 追问)
12 道自测题练的是”我能不能讲清楚”;反方对话训练练的是**“有人不同意我、还带着主流立场来打,我能不能接得住”。本专题的所有事实,原封不动可以被反方用来写一篇”reasoning 被夸大、别迷信推理模型”的反向专题——所以这一节不是背诵,是亲手训练对话能力**:每题先承认对方对的部分,再标注本专题坚持的边界与赌注(“接受+边界”,不是反驳)。
练习方式:找人扮演反方面试官,每天练 1 题、每题 15 分钟,录音回听卡顿处;第 7 天复盘,把 6 个对话练到”不依赖临场、30 秒开口、论证带具体证据”。
6 个必练对话
| 反方追问 | 答题要点(接受 + 边界) | 对应节点 |
|---|---|---|
| ”reasoning 模型不就是更强的模型吗?“ | 接受:在可验证任务(数学/代码/选择题)上,它确实是同权重下显著更强的产物。边界:它不是”全面更强”——能力沿可验证性梯度而非难度梯度上升,在开放/主观任务上无稳定增益甚至为负;而且很多”强”来自这次多烧的推理算力(每 query 重付费),不是权重里多了通用能力(ARC-AGI-2 2.9% 是反例)。“更强的模型”这个说法把三件不可通约的事(能力/算力/任务域)糊成一团。 | A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling、E03 数学代码强开放任务弱的能力剖面 |
| ”开了 thinking 总比不开好吧?“ | 接受:对难题,test-time scaling 确实成立,多想常常更准。边界:曲线是倒 U 形不是单调上升,最优点随难度漂移——简单题上开 thinking 是”加量加价且掉点”三杀(Phi-4-reasoning-plus ~6,780 vs Phi-4 ~378.6 token、准确率 69.54% vs 78.92% 反降,arXiv:2507.04023;R1-32B AIME 12K 见顶 55.8%、16K 回落 54.9%;超约 7,000 token 后把对的改错开始超过把错的改对)。“总比不开好”信的是”边际收益恒为正”,这个假设被 OptimalThinkingBench 类工作钉死为假。 | E02 Reasoning 反噬·过度思考与延迟灾难、A04 Reasoning Effort 作为可计费资源 |
| ”o3 是不是接近 AGI 了?“ | 接受:o3 在可验证 benchmark 上的跃迁是真的(AIME 96.7%、Codeforces Elo 2,727、ARC-AGI-1 高算力 87.5%),算力暴力是 Sutton”苦涩教训”的又一次胜利。边界:同一模型在抗刷分的 ARC-AGI-2 上只有 2.9%(人类约 60%),说明黑箱里相当部分是对特定 benchmark 分布的优化而非可迁移通用能力;Kambhampati 一类批评(“LLM 是近似检索非有原则推理”)值得认真对待。PM 的立场是”吃可观测行为、不等哲学定论”,但也绝不能把单一 benchmark 高分读成 AGI 信号。 | E01 o3 vs R1 vs Claude Extended Thinking 设计哲学、G02 o1 到 R1 到当代演化详解、A01 Reasoning 概念史·从 CoT 到 Test-Time Compute |
| ”CoT 和 reasoning 有区别吗?不都是一步步想?“ | 接受:两者输出形态都”看起来像一步步推理”,CoT 历史上确实是 reasoning 的先声。边界:CoT 是 prompt 层方法(权重不变、推理期诱导出中间步骤),trained reasoning 是 训练范式(用 RL 把推理焊进权重、永久、可蒸馏)——一个是”教学生背解题模板”,一个是”让学生在考场真演算”,作用机制/成本结构/可控性全不可通约。把 o1 当”内置 CoT”会在选型和成本估算上做错决策。 | A01 Reasoning 概念史·从 CoT 到 Test-Time Compute、A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling |
| ”验证器引导搜索肯定比暴力多采样强吧?“ | 接受:有了好验证器,树搜索/Best-of-N 能把算力从被动消耗变成主动投资,常优于纯投票。边界:验证器是天花板不是地板——它有上界、会失效、会被 reward hacking 钻空子(Goodhart 在搜索回路里复现);而且有反证(Yu et al. 2025, arXiv:2502.00271:大样本下验证器引导搜索可能劣于重复采样),生成器/验证器分布不一致(OOD)时树搜索会系统性误导。没有够好的验证器,先别上树搜索。 | R03 进阶·Verifier-guided 搜索、S01 测试时计算的三种花法·采样 验证 搜索 |
| ”reasoning 想得更久,应该能减少幻觉吧?“ | 接受:在可验证、需多步推导的任务上,显式推理 + 验证确实能降一部分错误。边界:在知识密集任务上,增加推理算力反而增加幻觉(模型在更长生成里编织更自洽的错误,arXiv:2509.06861 一类证据)——“想更久 = 更可信”是危险直觉。幻觉的不可消除性(c13 - 幻觉的不可消除性)不会被 reasoning 解决,reasoning 只是把错误包装得更像样。 | E02 Reasoning 反噬·过度思考与延迟灾难、E03 数学代码强开放任务弱的能力剖面、c13 - 幻觉的不可消除性 |
为什么这一训练是出版就绪的关键:本专题接入了 Snell / Yu / Kambhampati / LeCun / Sutton / Russell 等真实对手立场,但接入 ≠ 会用。这 6 题把藏在 15 个节点末尾的”对手框架回应”转译为可在面试中即时调用的显性肌肉记忆——练完即具备”经得起业界反方拷问的 AI PM”对话能力。
7. 反馈与迭代
本指南是 v1。Rick 使用一段时间后,建议在本节追加三类标注:
- 太难的节点:哪些节点预计时长明显低估(用了 2 倍以上时间),需拆细或加前置依赖说明(S01 旗舰最厚,最可能超时)。
- 太浅的节点:哪些节点读完仍”应付不了那道面试题”,需补深度。
- 缺失的场景:哪些问题没有合适节点可读——本专题已知的最大留白是创意/开放任务的 reasoning 增益到底有没有(学界量化几乎全在可验证域,开放任务连”对不对”都无法被脚本判定,见 E03 数学代码强开放任务弱的能力剖面),这本身就是”开放任务弱”最深的注脚,也是值得专门追踪的 PM 决策盲区。
7.1 本专题局限的显式承担
承担局限本身,就是与对手立场的真诚对话。
- 局限 1:本专题是辨义层 + 决策层,不是完整 reasoning 技术教程。 它不复述 PPO/GRPO 机制、不教你训一个推理模型;要训模型请走 强化学习 与一手论文。面试遇到”你会训推理模型吗”,Rick 应诚实说”我训练的是判断力——拆归因、选花法、定 effort、自建复现,而非从零训权重”。
- 局限 2:成本数字多为量级示意而非一手报价。 “output 费率比 input 贵 2–6 倍”等来自二手来源(codeant.ai 系),真实选型须以厂商当期 price list 为准。
- 局限 3:两个最重的承重跨域框架(控制论、认知科学)目前无实体节点。 采样-验证回路/过调阻尼/必要多样性以普通文本散落在 S01/S02/S03/E02/R 系列——若 Rick 要把它做成可复用资产,可考虑单独建库(控制论、认知科学专题均为待建,见总览待建概念清单),届时本指南回链。
验收档案查阅:本指南连同 15 个节点都经过多轮批判性同行评议,过程档案保存在 _topic_factory/0433-reasoning/(宪章 / critiques / 改稿快照)。这个迭代过程本身是一份元学习材料——它展示”用 AI 写 AI 知识,必须经过批判性同行评议才能成为可信知识”,呼应 AI概念滥用反思 的核心主张。
8. 关联节点(双链密度 ≥20)
8.1 本专题节点(15 个,本指南索引全部)
- 总览:_推理与测试时计算系统化专题·总览
- 概念辨析(4 篇):A01 Reasoning 概念史·从 CoT 到 Test-Time Compute、A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling、A03 System 2 的隐喻陷阱、A04 Reasoning Effort 作为可计费资源
- 代际演化(2 篇):G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索、G02 o1 到 R1 到当代演化详解
- 架构剖面(3 篇):S01 测试时计算的三种花法·采样 验证 搜索、S02 训练侧 vs 推理侧 Reasoning 可替换栈、S03 Reasoning 与 Agent 循环的耦合点
- 实例剖解(3 篇):E01 o3 vs R1 vs Claude Extended Thinking 设计哲学、E02 Reasoning 反噬·过度思考与延迟灾难、E03 数学代码强开放任务弱的能力剖面
- 复现指南(3 篇):R01 最小可运行·自洽采样投票、R02 中型·Reasoning 预算路由器、R03 进阶·Verifier-guided 搜索
8.2 现有节点锚点(升级对照)
- c11 - System 2 思维与 Test-Time Compute(母节点)、Test-Time Compute、强化学习、m209 - 推理成本控制手册
- 幻觉、c13 - 幻觉的不可消除性、c14 - 模型评估体系与 Goodhart 陷阱、Scaling Laws
8.3 产品设计锚点
8.4 公司/产品主体
8.5 跨专题互链(0411 Agent 系统化,真实名)
8.6 跨域 / 全局入口
- 范式、0117社会学、AI概念滥用反思、AI PM 知识图谱·总索引
[!todo] 待建概念清单(本指南登记,绝不在主库建 stub/概念卡/人物卡;引用时已降级为普通文本)
- 跨域承重专题(均已入库,回链至各自总览):评测系统化专题、控制论系统化专题、认知科学系统化专题——控制论与认知科学是本专题最重的两个跨域承重框架,现已在主库发布,跨专题引用已回链至总览。
- 算法/机制概念(本指南正文中出现、主库无卡):
GRPO、RLVR、PRM / ORM、Self-Consistency、Best-of-N、MCTS / Beam Search、reward hacking。- 产品参数/benchmark:
reasoning_effort 旋钮、ARC-AGI / ARC-AGI-2、OptimalThinkingBench、Overthinking Score。- 人物(不建人物卡):Subbarao Kambhampati、Yann LeCun、Rich Sutton、Stuart Russell、Herbert Simon、Erving Goffman、Michael Polanyi、Daniel Kahneman、Thomas Kuhn。
修订日志
- 2026-06-12 内审修复:§5.7 优秀线与 §6 反方对话训练里的 Phi-4 overthinking 数字,来源由全专题误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》(Srivastava et al., Virginia Tech)Table 2/§5.3,并补全可引的准确率对(Phi-4-reasoning-plus 69.54% vs Phi-4 78.92%、token ~6,780 vs ~378.6)。背景:6,780/378/69.54/78.92 四个数此前在 A01/A03/R02/G02 当真值、E02/A04 标〔待核实〕——经 WebFetch 复核 2505.00127/2504.21318 两篇全文均不含该组数字,本轮全专题 11 节点统一为 2507.04023 真值口径。全专题 live 双链经全库(含别名)核验 0 死链。
- 2026-06-11 P3.4 校链:§8.6 待建清单中 0412/0420/0426 现已入库(带
"NNNN 总览"别名),跨专题引用恢复为真可读名链、删除”不存在/降级为普通文本”过期注解。其余 8.x 双链经核验均解析成功;GRPO/RLVR/PRM 等算法概念卡确不存在,按 rule-4 保留为普通文本。 - 2026-06-07 R0(综合 Agent):首版 README。三路径各标时长/前置/产出(A 速通约 16 h 分三周设能力闸门、B 决策链 M1–M5、C 紧迫度红橙黄蓝 28 h 全档);§5 12 道自测题每题”及格线/优秀线/反例”三档;§6 推理领域 6 追问反方对话训练(“reasoning 不就是更强的模型吗 / 开 thinking 总比不开好吧 / o3 接近 AGI 了吗 / CoT 和 reasoning 有区别吗 / 验证器搜索肯定比暴力采样强吧 / 想更久能减幻觉吧”),均”接受+边界”并锚到真实节点与已核实数字(87.5% vs 2.9%、6,780 vs 378 token、12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 翻转点、AIME 96.7%、o1 74%→83%→93%);§8 双链全部为磁盘真实 basename(15 节点 Bash 核验)+ 主库已确认锚点;0412/0420/0426 等不存在前缀一律降级为普通文本并登记待建清单,未在主库建任何 stub。