R

README·0433·多视图阅读指南

创建 2026-06-07 更新 2026-06-12 5 条双链 推理与测试时计算 专题 AI 整理

README·多视图阅读指南

一句话定义:本指南是 0433 专题 15 个节点的三套读法——分别对应”转型 PM 求职速通”、“按决策链跳转”、“按紧迫度优先”三种 Rick 在不同时段会切换的身份模式;每条路径都标注预计时长、前置依赖、产出指标,不允许”很快读完”这类无锚点话术。读完后用 §5 的 12 道自测题(每题带及格线/优秀线/反例)自检,用 §6 的反方对话训练把”reasoning ≠ thinking ≠ test-time compute”练成肌肉记忆。


序:为什么推理专题需要多视图

转型 PM 不是一种状态,而是多种状态在不同周轮流出现。同一份内容,求职前最后一周读和入职第三个月做选型时读,需要的切入路径完全不同。强行单线性读完 15 个节点,会出现三种典型失败:

  1. 熵增式遗忘:按目录顺序读完,三天后只记得最后两篇。
  2. 抽象层错位:读到 S01 三种花法时还没建立 A02 五词辨析的坐标,分不清”采样/验证/搜索”和”CoT/reasoning/thinking”是两套正交的词。
  3. 临场失血:面试当天才发现 R01 没动过手,“能背 self-consistency 是什么,但没亲眼见过它的对数收益曲线”。

所以本专题不提供”标准读法”,而提供三套有锚点的读法

身份模式触发场景对应路径
求职转型者3 个月内有 AI PM 面试压力,需建立完整心智模型路径 A(速通,约 16 h)
工作日常 PM在岗或在做选型/成本方案,按当前决策跳读路径 B(决策链,按需取用)
碎片学习者通勤、周末、紧迫度不均;或临近某事件路径 C(红橙黄蓝四档)

三条路径共用同一个节点池,可在不同周切换而无须重读。

[!note] 本专题与 0411 Agent 专题的读法差异 0411 是 22 节点、强调”代际感 + 架构剖面”;本专题只有 15 节点,但辨义负载更重——头号失败不是”不知道有几代”,而是”把五个互相不可通约的词当同义词用”。所以本指南的速通路径把 A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling 放在第一篇,而不是按字母序从 A01 起。


路径 A:转型 PM 速通(求职导向)

适用对象:3 个月内有 AI PM 面试压力的 Rick;零碎时间能稳定凑出每天 1–1.5 小时。 总预计时长约 16 小时(含 R01 复现 3 小时)。 前置依赖:已读过 c11 - System 2 思维与 Test-Time Computem209 - 推理成本控制手册 的目录级摘要(不必精读——本专题是它们的升级对照)。 最终产出:能在面试 30 秒内拆穿”o3 比 GPT-4 强”的归因塌缩 + 一份能跑的 R01 self-consistency demo。

速通分三周,每周一个能力闸门。每周末必须能口答下面的”闸门题”,答不上不要进下一周——本专题的节点高度互锁,跳级读会在 S01 撞墙。

Week 1:术语坐标(约 5 小时)—— 防滑变疫苗

节点预计时长你在做什么
A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling1.5 h建立”层 × 时间”二维坐标,知道 reasoning 是唯一在”训练期/改权重”格子里的词
A01 Reasoning 概念史·从 CoT 到 Test-Time Compute1.5 h建立”这个词 2022→2025 指代物换了三次”的元认知
A04 Reasoning Effort 作为可计费资源1 h学会问”effort 是开关还是滑杆”——它有单价、有边际曲线、要采购决策
A03 System 2 的隐喻陷阱1 h学会拆”模型在思考”这句拟人话术——大多是更多采样而非”想明白”

Week 1 闸门题(90 秒口答):

  1. “o3 比 GPT-4 强 20 分,这 20 分是能力强了还是算力烧多了?” 要点:分清训练期改权重(能力)vs 推理期烧 token(算力),两者成本结构/可控旋钮/失效模式全不同。引 A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling
  2. “reasoning_effort 这个参数你怎么理解?” 要点:不是质量挡位,是质量/延迟/成本三角上的滑杆——thinking token 按 output 费率计(通常比 input 贵 2–6 倍),且边际效用在高端常转负。引 A04 Reasoning Effort 作为可计费资源

Week 1 复现指标:无(建坐标为主)。

Week 2:结构与病理(约 5.5 小时)—— 拆开”想更久”这个黑箱

节点预计时长你在做什么
S01 测试时计算的三种花法·采样 验证 搜索2 h★旗舰。把”想更久”拆成并行采样/序列修正/树搜索三条可单独定价的预算线
E03 数学代码强开放任务弱的能力剖面1.5 h学会用”可验证性梯度”而非”难度梯度”做选型第一刀
E02 Reasoning 反噬·过度思考与延迟灾难1.5 h看 overthinking 的量化证据,知道”无脑开 high 会更差”
Buffer0.5 hS01 超时用这块吸收

Week 2 闸门题

  1. “让模型多想一会儿,具体在花哪几种钱?” 要点:并行采样(延迟≈1次、唯一不牺牲延迟)/ 序列修正(延迟×N、能改对也能把对的改错)/ 树搜索(强依赖验证器、延迟随深度增长)。引 S01 测试时计算的三种花法·采样 验证 搜索
  2. “reasoning 模型适合给难任务用,对吧?” 要点:错。分流轴是可验证性不是难度——AIME(人类极难)被打穿到 96.7%,写安慰信(人类举手之劳)纹丝不动。引 E03 数学代码强开放任务弱的能力剖面

Week 2 复现指标:扫读 R01 代码框架(约 20 分钟),为 Week 3 上手做准备。

Week 3:实例 + 动手(约 5.5 小时)

节点预计时长你在做什么
E01 o3 vs R1 vs Claude Extended Thinking 设计哲学1.5 h把三家产品还原成三种不可互换的商业赌注
G02 o1 到 R1 到当代演化详解1 h补时间纵轴:逐代代表作/推动力/瓶颈/被什么超越
R01 最小可运行·自洽采样投票3 h(含跑通 2 h)亲手跑通 ~50 行 self-consistency,亲眼看准确率—成本—延迟三角

Week 3 闸门题

  1. “o3、R1、Claude Extended Thinking 这三家,PM 怎么判断差异?” 要点:不在分数里,在设计哲学里——黑箱卖 token(o3 藏思考链护城河)/ 开源冲定价(R1 开源逼着显示思考链、放弃推理定价权)/ 半透明做协作(Claude 给 effort 旋钮 + summary)。引 E01 o3 vs R1 vs Claude Extended Thinking 设计哲学
  2. “你自己复现过推理吗?” 要点:跑过 R01 self-consistency,亲眼看到收益随 N 对数增长而成本随 N 线性——maj@8~maj@64 是甜蜜区,超过就是为对数尾巴付线性的钱。引 R01 最小可运行·自洽采样投票

Week 3 复现指标:1 个可演示的 R01 demo(GitHub 链接或本地视频)+ 一句话复盘”我在哪个 N 看到收益拐头”。

三周总览复检表

维度Week 1 末Week 2 末Week 3 末
能拆”能力 vs 算力”归因
能说清三种花法
能按可验证性选型
能展示亲手跑过的 demo
累计投入小时510.516

路径 B:按 M1→M5 决策链跳转

适用对象:在岗 PM,按当前项目阶段跳读,不求一次读完。 总预计时长按需取用(每节点 1–2 小时)。 前置依赖:先读 AI PM 知识图谱·总索引 了解 M1-M5 决策链结构。 最终产出:每次跳读后能直接服务当前项目决策。

AI PM 知识图谱·总索引 把 AI PM 工作分为五大决策链(M1 技术素养 → M2 工程落地 → M3 产品设计 → M4 商业模式 → M5 合规治理)。本专题节点在其中的分布与跳转锚点:

M1 技术素养(建立技术心智模型)

典型问题:“我要在面试/团队里讲清 reasoning 到底是什么”。

  1. A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling — 1.5 h — 术语精度
  2. A01 Reasoning 概念史·从 CoT 到 Test-Time Compute — 1.5 h — 历史纵深
  3. A03 System 2 的隐喻陷阱 — 1 h — 拆拟人话术
  4. G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索 — 1.5 h — 时间纵轴
  5. G02 o1 到 R1 到当代演化详解 — 1 h — 逐代放大镜 M1 累计:约 6.5 小时。

M2 工程落地(选型、成本、路由)

典型问题:“这道任务该花哪种钱、开多少 effort、要不要自建路由”。

  1. A04 Reasoning Effort 作为可计费资源 — 1 h — 把 effort 当生产要素
  2. S01 测试时计算的三种花法·采样 验证 搜索 — 2 h — 三条预算线的成本-收益曲线
  3. S02 训练侧 vs 推理侧 Reasoning 可替换栈 — 1.5 h — 训练 CapEx ↔ 推理 OpEx 替换汇率
  4. R02 中型·Reasoning 预算路由器 — 4 h(含跑通)— 难度分类器 + effort 映射 + 降级回路
  5. 对接 m209 - 推理成本控制手册 的 cascade 决策树 — 1 h — 怎么省(路由/缓存/计费) M2 累计:约 9.5 小时(含复现)。

M3 产品设计(交互、信任、可解释)

典型问题:“我要做推理产品的 PRD,或评估供应商的可信度设计”。

  1. E01 o3 vs R1 vs Claude Extended Thinking 设计哲学 — 1.5 h — 思考可见性 = 印象管理光谱
  2. E02 Reasoning 反噬·过度思考与延迟灾难 — 1.5 h — 延迟/成本三角塌陷的产品代价
  3. A04 Reasoning Effort 作为可计费资源 — 1 h — effort 作为可暴露给用户的旋钮
  4. 落到 UX 对策:p304 - 防御性 UX:对抗延迟与幻觉p305 - 信任架构与可解释性设计 — 各 1 h M3 累计:约 6 小时。

M4 商业模式(本专题 hint,未单独建专题)

M5 合规治理(本专题 hint,未单独建专题)


路径 C:紧迫度优先(标签视图)

适用对象:碎片时间多、整段时间少;或临近某事件(面试、选型会、对外汇报)。 总预计时长:按档累加。 最终产出:按档完成后达到对应能力门槛。

红 🔴 求职必读(5 篇,约 7.5 小时)

不读这 5 篇直接面试 AI PM 中级岗有非常高失败概率:

节点时长跳过的代价
A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling1.5 h第一题”o3 强是能力还是算力”就答崩
A01 Reasoning 概念史·从 CoT 到 Test-Time Compute1.5 h把 o1 当”更长的 CoT”,暴露用 2022 定义谈 2025 产品
S01 测试时计算的三种花法·采样 验证 搜索2 h”想更久花哪几种钱”答不上,没有可操作决策表
E01 o3 vs R1 vs Claude Extended Thinking 设计哲学1.5 h供应商对比题只会比 feature list,比不出商业赌注
E03 数学代码强开放任务弱的能力剖面1 h把分流轴搞成难度而非可验证性,选型第一刀切错

总计:约 7.5 小时(5 天内可完成)。

橙 🟠 复现优先(3 篇,约 11 小时含上手)

不亲手做过的 PM 与工程师对话会被识破:

节点时长(含上手)跳过的代价
R01 最小可运行·自洽采样投票3 h”你写过吗” → “没”;没亲眼见过对数收益曲线
R02 中型·Reasoning 预算路由器4 h答不出”双峰请求分布怎么路由 effort”
R03 进阶·Verifier-guided 搜索4 h验证器/PRM/树搜索仍停留在概念,不知五大翻车点

总计:约 11 小时(建议留 1–2 周)。

黄 🟡 前沿与机制追踪(4 篇,约 6 小时)

落在 2025–2026 才被反复讨论、或承重跨域框架最重的几篇:

节点时长跳过的代价
G02 o1 到 R1 到当代演化详解1.5 h答不出 R1-Zero “涌现 vs 解锁”之争、GRPO、benchmark 通胀
S02 训练侧 vs 推理侧 Reasoning 可替换栈1.5 h不懂”小模型+TTC 何时能替更大模型、何时不能”
S03 Reasoning 与 Agent 循环的耦合点1.5 h把 Agent 失控归咎工具/prompt,看不见 reasoning 方差累积
E02 Reasoning 反噬·过度思考与延迟灾难1.5 h答不出 overthinking 倒 U 曲线的量化证据

总计:约 6 小时

蓝 🔵 延展加分(按需)

深化辨义与谱系底座:A03 System 2 的隐喻陷阱A04 Reasoning Effort 作为可计费资源G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索(共 3 篇 × 1–1.5 h ≈ 3.5 小时)。

紧迫度路径总时长汇总

节点数累计时长累计后能力门槛
红 🔴57.5 h中级面试技术题能撑过去
红+橙818.5 h中级面试 + 工程对话不夹生
红+橙+黄1224.5 h中级面试 + 前沿/机制能聊
全档1528 h完整知识立方

5. 读完后的元能力检验(12 个自测问题)

这 12 题不是”考试”,是读完后用来自检的工具。每题附**及格线 / 优秀线 / 反例(错答会怎样)**三档——反例那一档最重要,它告诉你”答成什么样会被面试官当场识破”。

5.1 “o3 比 GPT-4 强,这强是怎么来的?”

  • 要点:分清两条不可通约的因果链——模型能力变强(训练期改权重,永久、全局)vs 这次回答多烧算力(推理期 TTC,每 query 重新付费)。
  • 及格线:能指出”强”可能来自其中任一条,要追问是哪条。
  • 优秀线:能引 ARC-AGI 反例——o3 在 ARC-AGI-1 高算力档 87.5%(烧 172× 算力),抗刷分的 ARC-AGI-2 上仅 2.9%(人类约 60%),说明黑箱里相当部分是对 benchmark 分布的优化而非可迁移能力。引 A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling / E01 o3 vs R1 vs Claude Extended Thinking 设计哲学
  • 反例:答”o3 就是更强的模型”——直接暴露归因塌缩,面试官会追问”强在权重里还是强在多烧的钱里?“答不上即被判”概念没拆开”。

5.2 “reasoning、thinking、test-time compute 是一回事吗?”

  • 要点:分属能力层(reasoning,权重里有没有,永久、可蒸馏)/ 产品层(thinking,UI 给”思考 token”起的名)/ 度量层(TTC,烧了多少算力)——两两不可通约。
  • 及格线:能说出三者不是同义词。
  • 优秀线:能引维特根斯坦语言游戏——“o3 会思考了”是语法混乱(把度量/产品话术当能力命题),不是真命题。引 A02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling / A03 System 2 的隐喻陷阱
  • 反例:答”差不多,都是让模型多想想”——暴露你把度量当方法、把曲线当能力,2025 年 AI PM 最高频认知事故。

5.3 “把 o1 理解成’更长的 CoT’对不对?”

  • 要点:错。CoT 是 prompt 层方法(权重不变),o1 是训练范式切换(用大规模 RL 把推理焊进权重)——这是 Kuhn 意义上的格式塔切换,不是连续改良。
  • 及格线:知道 o1 来自训练而非提示。
  • 优秀线:能说清误读的产品后果——把训练范式切换当 prompt 改良,会在选型和成本估算上做错决策(以为”上了 reasoning model 就不用写 CoT prompt”)。引 A01 Reasoning 概念史·从 CoT 到 Test-Time Compute
  • 反例:答”o1 就是内置了 CoT”——暴露你在用 2022 年的概念谈 2024 年的产品。

5.4 “让模型’多想一会儿’,具体在花哪几种钱?”

  • 要点:并行采样(独立答 N 遍投票/选优,延迟≈1 次)/ 序列修正(一个答案反复改,延迟×N)/ 树搜索(验证器引导候选树,延迟随深度增长、强依赖验证器)。
  • 及格线:能说出三种且知道延迟代价不同。
  • 优秀线:能指出两个”长 CoT vs 短 CoT”框架问不出来的决策——(1) 任务能不能并行(决定延迟);(2) 有没有够好的验证器(决定树搜索天花板)。引 S01 测试时计算的三种花法·采样 验证 搜索
  • 反例:答”就是把思考链拉长”——把两个正交维度(生成多少候选 × 如何筛选)压成一维,选型时看不见最致命的两个变量。

5.5 “self-consistency 多采样几次,准确率会一直涨吗?”

  • 要点:不会。成本随 N 线性,收益随 N 对数——边际准确率半衰。
  • 及格线:知道收益会递减。
  • 优秀线:能给数字——o1 在 AIME 2024 单次 74%、64 次投票 83%(成本×64 拿 +9pt)、1000+ 次配重排到 93%(再×16 拿 +10pt);甜蜜区通常在 maj@8~maj@64,超过就是为对数尾巴付线性的钱。引 S01 测试时计算的三种花法·采样 验证 搜索 / R01 最小可运行·自洽采样投票
  • 反例:答”采样越多越准,多花钱就行”——暴露没动过手,没见过收益拐头。

5.6 “reasoning 模型适合用在难任务上,对吧?”

  • 要点:分流轴是可验证性不是难度——能被一个不比模型更聪明的程序自动判对错的任务(数学/代码/选择题),reasoning 大概率有用;对错由人主观裁定的任务(文案/安慰信/共情),边际收益迅速塌缩甚至为负。
  • 及格线:能反对”按难度分流”。
  • 优秀线:能给反例数字——AIME(人类极难)o3 到 96.7%、o4-mini 配工具到 99.5%,而”写得体的安慰信”(人类举手之劳)无稳定增益;并能接到机制:RLVR 只在有验证器处生长(Polanyi 默会知识无法形式化)。引 E03 数学代码强开放任务弱的能力剖面
  • 反例:答”难的就上 reasoning”——选型第一刀就切错,会把一堆开放/创意任务误派给推理模型还掉点。

5.7 “无脑把 reasoning_effort 开到 high,最坏会怎样?”

  • 要点:质量、延迟、成本三角同时塌陷——overthinking 在简单题上是”加量加价且掉点”三杀。
  • 及格线:知道简单题开 high 不划算。
  • 优秀线:能给量化证据——推理模型常规数学任务平均约 6,780 token vs 标准 Phi-4 的约 378.6 token(近 18×),Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%(arXiv:2507.04023 Table 2/§5.3);R1-32B 在 AIME 上 12K token 见顶 55.8%、16K 回落 54.9%,推理超过约 7,000 token 后”把对的改错”开始超过”把错的改对”。引 E02 Reasoning 反噬·过度思考与延迟灾难
  • 反例:答”开 high 顶多慢点贵点,质量总不会差”——暴露你信”边际收益恒为正”的单调假设,没看过倒 U 曲线。

5.8 “effort 是个质量挡位吗?”

  • 要点:不是挡位,是滑杆——有单价(thinking token 按 output 费率,通常比 input 贵 2–6 倍)、有边际效用曲线(高端常转负)、需要逐请求采购决策(不是全局拉满)。
  • 及格线:知道开 effort 要花真金白银和墙钟时间。
  • 优秀线:能引边际经济学——最优点在”边际产出=边际成本”而非”产出最大化”,overthinking = 边际产出转负,Simon 的 satisficing 是其认识论祖先。引 A04 Reasoning Effort 作为可计费资源
  • 反例:答”重要任务拨 high、不重要拨 low”——离散挡位心智模型,看不见”同一产品里不同请求该用不同档”的路由空间。

5.9 “o3、R1、Claude Extended Thinking 凭什么判断差异?分数都差不多。”

  • 要点:差异不在分数(会过期),在设计哲学=三种不可分割的产品赌注:思考可见性、effort 旋钮给不给、权重开不开,三轴互相锁死。
  • 及格线:能说出”藏思考链 / 开源 / 半透明”三种姿态。
  • 优秀线:能讲赌注逻辑——o3 隐藏思考链是因为 RL-reasoning 护城河建立在”对手看不到推理轨迹(防蒸馏)“;R1 开源逼着显示思考链、也逼着放弃推理定价权;Claude 的 effort 旋钮前提是闭源+半透明;并能接戈夫曼前台/后台(“思考可见性”= 印象管理光谱)。引 E01 o3 vs R1 vs Claude Extended Thinking 设计哲学
  • 反例:答”o3 分最高所以最强”——把会过期的 benchmark 当结构性差异,且无视 ARC-AGI-2 的 2.9% 反例。

5.10 “R1-Zero 的 aha moment 是 RL 凭空创造了推理能力吗?”

  • 要点:是”涌现 vs 解锁”的真实争议,不该说死。R1-Zero 纯 RL 在 AIME 2024 pass@1 71.0%、多数投票 86.7% 确实惊人,但有反例提示更可能是”基座解锁”而非凭空创造。
  • 及格线:知道这是有争议的,不照搬”RL 创造推理”叙事。
  • 优秀线:能列反例——V3-Base epoch 0 已有迹象、无模板的 Qwen2.5 亦强、GRPO 有 length bias(arXiv:2503.20783 一类工作对涌现叙事的祛魅);并指出对 PM 的实操含义:若主要是解锁,则 RL 推理天花板由基座质量决定,选型/自建更该看基座。引 G02 o1 到 R1 到当代演化详解 / G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索
  • 反例:答”R1 证明 RL 能凭空长出推理”——把早期 confirmation bias 当铁证,会高估纯 RL trick 的迁移性。

5.11 “Agent 跑飞了,第一反应去改 prompt 还是别的?”

  • 要点:很多失控不是工具/prompt 的错,是 reasoning 这台高增益引擎本身不稳定的下游放大——把 Agent 当带反馈的采样-验证控制系统看,reasoning 是回路里增益最高、方差沿时间累积的环节。
  • 及格线:知道要怀疑 reasoning 而不是只改 prompt。
  • 优秀线:能给阻尼器——验证器、步数上限、effort 下调;并指出失效边界:在短 horizon(n≤3)+强外部验证器场景,“reasoning 方差是失控主因”这条判断会失效。引 S03 Reasoning 与 Agent 循环的耦合点(与 0411 的 S03 Harness Engineering 全景 互补)。
  • 反例:答”加 few-shot、换个工具”——在错误的地方找 bug,因为”规划器+执行器”框架把 reasoning 当一次性确定动作。

5.12 “想自建一套推理增强,从哪起步、进阶到哪?”

  • 要点:三档——R01 self-consistency(~50 行、唯一不需验证器/训练的入口)→ R02 预算路由器(难度分类器+effort 映射+降级回路)→ R03 verifier-guided 搜索(Best-of-N / Beam / MCTS + ORM/PRM/确定性验证器)。
  • 及格线:能说出从 self-consistency 起步。
  • 优秀线:能点破各档的”看起来省钱实际更贵”陷阱——R02 在请求分布接近单峰时路由净亏(直接固定 effort 即可);R03 的 verifier 是天花板不是地板,会被 reward hacking 钻空子(Goodhart 在搜索回路里的复现)。引 R01 最小可运行·自洽采样投票 / R02 中型·Reasoning 预算路由器 / R03 进阶·Verifier-guided 搜索
  • 反例:答”直接上 MCTS/树搜索最强”——跳过最便宜的入口、且无视”没有够好的验证器,树搜索的天花板就被钉死”。

[!tip] 自测评分法 12 题里 ≥8 题达”及格线”= 可以去面中级 AI PM 技术轮;≥6 题达”优秀线”= 能扛住有准备的反方面试官;任何一题落到”反例”那档,回去重读对应节点——那些是会被当场识破的硬伤。


6. 反方对话训练(推理领域 6 追问)

12 道自测题练的是”我能不能讲清楚”;反方对话训练练的是**“有人不同意我、还带着主流立场来打,我能不能接得住”。本专题的所有事实,原封不动可以被反方用来写一篇”reasoning 被夸大、别迷信推理模型”的反向专题——所以这一节不是背诵,是亲手训练对话能力**:每题先承认对方对的部分,再标注本专题坚持的边界与赌注(“接受+边界”,不是反驳)。

练习方式:找人扮演反方面试官,每天练 1 题、每题 15 分钟,录音回听卡顿处;第 7 天复盘,把 6 个对话练到”不依赖临场、30 秒开口、论证带具体证据”。

6 个必练对话

反方追问答题要点(接受 + 边界)对应节点
”reasoning 模型不就是更强的模型吗?“接受:在可验证任务(数学/代码/选择题)上,它确实是同权重下显著更强的产物。边界:它不是”全面更强”——能力沿可验证性梯度而非难度梯度上升,在开放/主观任务上无稳定增益甚至为负;而且很多”强”来自这次多烧的推理算力(每 query 重付费),不是权重里多了通用能力(ARC-AGI-2 2.9% 是反例)。“更强的模型”这个说法把三件不可通约的事(能力/算力/任务域)糊成一团。A02 五词辨析·CoT 推理 思考 慢思考 Inference-scalingE03 数学代码强开放任务弱的能力剖面
”开了 thinking 总比不开好吧?“接受:对难题,test-time scaling 确实成立,多想常常更准。边界:曲线是倒 U 形不是单调上升,最优点随难度漂移——简单题上开 thinking 是”加量加价且掉点”三杀(Phi-4-reasoning-plus ~6,780 vs Phi-4 ~378.6 token、准确率 69.54% vs 78.92% 反降,arXiv:2507.04023;R1-32B AIME 12K 见顶 55.8%、16K 回落 54.9%;超约 7,000 token 后把对的改错开始超过把错的改对)。“总比不开好”信的是”边际收益恒为正”,这个假设被 OptimalThinkingBench 类工作钉死为假。E02 Reasoning 反噬·过度思考与延迟灾难A04 Reasoning Effort 作为可计费资源
”o3 是不是接近 AGI 了?“接受:o3 在可验证 benchmark 上的跃迁是真的(AIME 96.7%、Codeforces Elo 2,727、ARC-AGI-1 高算力 87.5%),算力暴力是 Sutton”苦涩教训”的又一次胜利。边界:同一模型在抗刷分的 ARC-AGI-2 上只有 2.9%(人类约 60%),说明黑箱里相当部分是对特定 benchmark 分布的优化而非可迁移通用能力;Kambhampati 一类批评(“LLM 是近似检索非有原则推理”)值得认真对待。PM 的立场是”吃可观测行为、不等哲学定论”,但也绝不能把单一 benchmark 高分读成 AGI 信号。E01 o3 vs R1 vs Claude Extended Thinking 设计哲学G02 o1 到 R1 到当代演化详解A01 Reasoning 概念史·从 CoT 到 Test-Time Compute
”CoT 和 reasoning 有区别吗?不都是一步步想?“接受:两者输出形态都”看起来像一步步推理”,CoT 历史上确实是 reasoning 的先声。边界:CoT 是 prompt 层方法(权重不变、推理期诱导出中间步骤),trained reasoning 是 训练范式(用 RL 把推理焊进权重、永久、可蒸馏)——一个是”教学生背解题模板”,一个是”让学生在考场真演算”,作用机制/成本结构/可控性全不可通约。把 o1 当”内置 CoT”会在选型和成本估算上做错决策。A01 Reasoning 概念史·从 CoT 到 Test-Time ComputeA02 五词辨析·CoT 推理 思考 慢思考 Inference-scaling
”验证器引导搜索肯定比暴力多采样强吧?“接受:有了好验证器,树搜索/Best-of-N 能把算力从被动消耗变成主动投资,常优于纯投票。边界:验证器是天花板不是地板——它有上界、会失效、会被 reward hacking 钻空子(Goodhart 在搜索回路里复现);而且有反证(Yu et al. 2025, arXiv:2502.00271:大样本下验证器引导搜索可能劣于重复采样),生成器/验证器分布不一致(OOD)时树搜索会系统性误导。没有够好的验证器,先别上树搜索。R03 进阶·Verifier-guided 搜索S01 测试时计算的三种花法·采样 验证 搜索
”reasoning 想得更久,应该能减少幻觉吧?“接受:在可验证、需多步推导的任务上,显式推理 + 验证确实能降一部分错误。边界:在知识密集任务上,增加推理算力反而增加幻觉(模型在更长生成里编织更自洽的错误,arXiv:2509.06861 一类证据)——“想更久 = 更可信”是危险直觉。幻觉的不可消除性(c13 - 幻觉的不可消除性)不会被 reasoning 解决,reasoning 只是把错误包装得更像样。E02 Reasoning 反噬·过度思考与延迟灾难E03 数学代码强开放任务弱的能力剖面c13 - 幻觉的不可消除性

为什么这一训练是出版就绪的关键:本专题接入了 Snell / Yu / Kambhampati / LeCun / Sutton / Russell 等真实对手立场,但接入 ≠ 会用。这 6 题把藏在 15 个节点末尾的”对手框架回应”转译为可在面试中即时调用的显性肌肉记忆——练完即具备”经得起业界反方拷问的 AI PM”对话能力。


7. 反馈与迭代

本指南是 v1。Rick 使用一段时间后,建议在本节追加三类标注:

  1. 太难的节点:哪些节点预计时长明显低估(用了 2 倍以上时间),需拆细或加前置依赖说明(S01 旗舰最厚,最可能超时)。
  2. 太浅的节点:哪些节点读完仍”应付不了那道面试题”,需补深度。
  3. 缺失的场景:哪些问题没有合适节点可读——本专题已知的最大留白是创意/开放任务的 reasoning 增益到底有没有(学界量化几乎全在可验证域,开放任务连”对不对”都无法被脚本判定,见 E03 数学代码强开放任务弱的能力剖面),这本身就是”开放任务弱”最深的注脚,也是值得专门追踪的 PM 决策盲区。

7.1 本专题局限的显式承担

承担局限本身,就是与对手立场的真诚对话。

  • 局限 1:本专题是辨义层 + 决策层,不是完整 reasoning 技术教程。 它不复述 PPO/GRPO 机制、不教你训一个推理模型;要训模型请走 强化学习 与一手论文。面试遇到”你会训推理模型吗”,Rick 应诚实说”我训练的是判断力——拆归因、选花法、定 effort、自建复现,而非从零训权重”。
  • 局限 2:成本数字多为量级示意而非一手报价。 “output 费率比 input 贵 2–6 倍”等来自二手来源(codeant.ai 系),真实选型须以厂商当期 price list 为准。
  • 局限 3:两个最重的承重跨域框架(控制论、认知科学)目前无实体节点。 采样-验证回路/过调阻尼/必要多样性以普通文本散落在 S01/S02/S03/E02/R 系列——若 Rick 要把它做成可复用资产,可考虑单独建库(控制论、认知科学专题均为待建,见总览待建概念清单),届时本指南回链。

验收档案查阅:本指南连同 15 个节点都经过多轮批判性同行评议,过程档案保存在 _topic_factory/0433-reasoning/(宪章 / critiques / 改稿快照)。这个迭代过程本身是一份元学习材料——它展示”用 AI 写 AI 知识,必须经过批判性同行评议才能成为可信知识”,呼应 AI概念滥用反思 的核心主张。


8. 关联节点(双链密度 ≥20)

8.1 本专题节点(15 个,本指南索引全部)

8.2 现有节点锚点(升级对照)

8.3 产品设计锚点

8.4 公司/产品主体

8.5 跨专题互链(0411 Agent 系统化,真实名)

8.6 跨域 / 全局入口

[!todo] 待建概念清单(本指南登记,绝不在主库建 stub/概念卡/人物卡;引用时已降级为普通文本)

  • 跨域承重专题(均已入库,回链至各自总览)评测系统化专题、控制论系统化专题、认知科学系统化专题——控制论与认知科学是本专题最重的两个跨域承重框架,现已在主库发布,跨专题引用已回链至总览。
  • 算法/机制概念(本指南正文中出现、主库无卡):GRPORLVRPRM / ORMSelf-ConsistencyBest-of-NMCTS / Beam Searchreward hacking
  • 产品参数/benchmarkreasoning_effort 旋钮ARC-AGI / ARC-AGI-2OptimalThinkingBenchOverthinking Score
  • 人物(不建人物卡):Subbarao Kambhampati、Yann LeCun、Rich Sutton、Stuart Russell、Herbert Simon、Erving Goffman、Michael Polanyi、Daniel Kahneman、Thomas Kuhn。

修订日志

  • 2026-06-12 内审修复:§5.7 优秀线与 §6 反方对话训练里的 Phi-4 overthinking 数字,来源由全专题误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》(Srivastava et al., Virginia Tech)Table 2/§5.3,并补全可引的准确率对(Phi-4-reasoning-plus 69.54% vs Phi-4 78.92%、token ~6,780 vs ~378.6)。背景:6,780/378/69.54/78.92 四个数此前在 A01/A03/R02/G02 当真值、E02/A04 标〔待核实〕——经 WebFetch 复核 2505.00127/2504.21318 两篇全文均不含该组数字,本轮全专题 11 节点统一为 2507.04023 真值口径。全专题 live 双链经全库(含别名)核验 0 死链。
  • 2026-06-11 P3.4 校链:§8.6 待建清单中 0412/0420/0426 现已入库(带 "NNNN 总览" 别名),跨专题引用恢复为真 可读名 链、删除”不存在/降级为普通文本”过期注解。其余 8.x 双链经核验均解析成功;GRPO/RLVR/PRM 等算法概念卡确不存在,按 rule-4 保留为普通文本。
  • 2026-06-07 R0(综合 Agent):首版 README。三路径各标时长/前置/产出(A 速通约 16 h 分三周设能力闸门、B 决策链 M1–M5、C 紧迫度红橙黄蓝 28 h 全档);§5 12 道自测题每题”及格线/优秀线/反例”三档;§6 推理领域 6 追问反方对话训练(“reasoning 不就是更强的模型吗 / 开 thinking 总比不开好吧 / o3 接近 AGI 了吗 / CoT 和 reasoning 有区别吗 / 验证器搜索肯定比暴力采样强吧 / 想更久能减幻觉吧”),均”接受+边界”并锚到真实节点与已核实数字(87.5% vs 2.9%、6,780 vs 378 token、12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 翻转点、AIME 96.7%、o1 74%→83%→93%);§8 双链全部为磁盘真实 basename(15 节点 Bash 核验)+ 主库已确认锚点;0412/0420/0426 等不存在前缀一律降级为普通文本并登记待建清单,未在主库建任何 stub。