G02 审阅关系代际演化详解

本节点要解决的问题：G01 人机审阅关系代际谱系总图给了一张人机审阅关系五代谱系的总图——五代为①被动工具 ②建议者 ③协作者 ④置信度门控 ⑤认知前移，与本节点 §1–§5 严格同名同序，且共用同一根分界轴”审阅负载比”（见 §0）。但总图是压缩视图：它给骨架、命名、负载比曲线与风险迁移，没告诉你每一代”靠什么产品形态成立、审阅机制长什么样、瓶颈卡在哪里、又是被下一代的什么东西超越的”。本节点把那张图逐代展开，每一代用代表产品形态 → 审阅机制 → 瓶颈 → 被下代超越的具体接口四件套钉死，并刻意拒绝”一代更比一代强”的线性进步叙事——每一代的”超越”都同时引入了新的、上一代没有的失效模式。视角框架：把”审阅”当作一个有带宽上限的生产工序，而不是一个道德姿态。

§0 为什么用”审阅带宽”这个框架，而不是”自动化等级”

读到”人机关系代际演化”，PM 脑子里第一个跳出来的框架通常是 p307 - Copilot 到 Autopilot 光谱的 L0–L4 控制权分配，或者汽车业的 SAE 自动驾驶分级。这个默认框架在这里会误导，必须先挡掉。

L0–L4 光谱测量的是”机器拿走了多少控制权”——它的轴是控制权的让渡。但本专题的核心命题是另一回事：当 AI 让生产成本趋零，瓶颈从”生产能力”反转为”人类审阅带宽”（这条主轴在 G01 人机审阅关系代际谱系总图已确立）。控制权光谱回答不了”为什么 L2 协作者比 L1 建议者更危险”——因为它的轴上 L2 只是”更自动”，看不见 L2 恰恰是审阅带宽被击穿的那一代。

所以本节点换一根轴：单位时间内,机器要求人类审阅的信息量 ÷ 人类的有效审阅带宽。这个比值我称为”审阅负载比”。比值 <1，人类审得过来，关系稳定；比值 >1，要么溺水（drowning）、要么橡皮图章（rubber-stamping），二者必居其一——这个二元困境的最锋利表述来自 Satya Borg 的博客（“Human Review is the Bottleneck”, 2026）：“An agent’s code hits you like a freight train at 1000 tok/sec with zero mortal constraints.”（来源：satyaborg.com/blog/human-review-bottleneck）。代际演化的真正驱动力，是这个比值被反复推过 1、又被新的审阅界面设计压回 1 以下的拉锯。这根轴比 L0–L4 更能解释”为什么有些自动化反而让结果变差”。

[!note] 与 L0–L4 的关系不是替代，是正交控制权光谱是”机器能做多少”的供给侧视角；审阅负载比是”人能验多少”的需求侧视角。一个 L4 自治系统如果配了一个把审阅负载比压到 0.3 的好界面（confidence-gated 自动执行，只把 0.6–0.9 区间的吐给人），它的人机关系可以比一个界面糟糕的 L2 协作者更健康。这正是 G 代际不等于 L 等级的原因。

§1 第一代：被动工具时代——审阅根本不是问题

代表产品形态：拼写检查、语法高亮、IDE 静态分析（早期 IntelliSense）、Office 的红绿波浪线。机器在你已经写完的东西上做标注，等你来看。

审阅机制：人是生产者，机器是审阅者中的一个”提示源”。注意力流向是”人主动扫一眼机器的标注，绝大多数忽略”。机器的产出是离散、稀疏、局部的——一条波浪线只覆盖一个词，认知成本几乎为零。

瓶颈在哪：瓶颈仍然牢牢卡在人类的生产能力上。机器审得再快也没用，因为内容是人一个字一个字敲出来的。审阅负载比远小于 1——机器一天给你标 50 个拼写错，你扫一眼就过。这一代的人机关系是稳定的，因为机器的”产能”被人的打字速度天然限流了。

被下代超越的具体接口：当机器从”标注人写的东西”变成”替人写”，第一代就被掀翻了。临界点是生成能力的出现——机器不再在你的产出上做减法（挑错），而是直接做加法（产出）。Copilot 2021 年的 ghost text 就是那个接口：灰色预览文字直接出现在光标后，人第一次需要审阅”机器主动生产的内容”。

[!warning] 反例：第一代并非”原始而落后” 进步主义叙事会说”被动工具弱爆了”。但被动工具有一个后几代都丢失的优点：它从不抢在你形成判断之前给答案。波浪线出现时，句子已经是你写的，你的心智模型是完整的——不存在锚定。后面会看到，从第二代起，“AI 先于人的独立判断出现”成了 automation bias 的结构性温床（p305 - 信任架构与可解释性设计 §RLHF 自信语气、c13 - 幻觉的不可消除性校准失准）。第一代的”笨”恰恰豁免了它最致命的认知陷阱。

§2 第二代：建议者时代——接受率成为唯一指标，质量被悄悄外包

代表产品形态：GitHub Copilot 的行内补全（2021–2023）、ChatGPT 早期单轮问答、搜索引擎的”猜你想搜”。机器一次产出一小块（一行代码、一段话），人逐块决定接受/拒绝。

审阅机制：Tab 接受、Esc 拒绝。审阅被切成高频小颗粒的二元决策。这一代发明了一个看似中性、实则有毒的指标——接受率。ZoomInfo 对 400+ 开发者的研究（arXiv 2501.13282, 2023–2024）测得：建议接受率 33%，代码行接受率 20%；GitHub 官方数据则是新手平均 31.9%、资深 26.2%。Communications of the ACM 综述给出的合并区间是 21.2%–23.5%。

瓶颈在哪：瓶颈第一次离开生产侧、贴近审阅侧，但还没击穿。因为颗粒度小（一行代码），单次审阅的认知负荷仍在工作记忆容量内——Miller 的 7±2 或 Cowan 更严格的约 4 个组块（来源：Cowan 2001, Behavioral and Brain Sciences；Miller 1956, Psychological Review）都还兜得住一行代码。真正的病灶是指标错位：“接受率”测的是行为日志，不是代码正确性。接受率高可能意味着 AI 好，也可能意味着人在橡皮图章——这两者在日志里长得一模一样。这是第二代埋下的、要到第三、四代才彻底爆炸的雷。

被下代超越的具体接口：颗粒度。当 AI 从”补全一行”变成”agent 模式一次改 12 个文件”，逐 hunk 的二元决策接口直接崩溃——你不可能对 288 行的变更逐 hunk 按 Tab。LogRocket 的实测对比很刺眼：同一个重构任务，人类写 26 行，Claude Code 产出 288 行；审阅时间从 4–5 分钟涨到 15–20 分钟（来源：blog.logrocket.com/ai-coding-tools-shift-bottleneck-to-review/）。颗粒度一变大，第二代的审阅接口就过载了。

[!note] 对手框架回应：接受率不是没用，是被错配了业界（尤其增长团队）会反驳：“接受率是我们唯一能规模化埋点的信号，你让我们用什么？“接受它对的部分——接受率作为采纳意愿的代理是有效的，p306 - 数据飞轮与反馈回路设计正是靠它驱动模型迭代。标注本专题的边界：接受率作为质量代理是失效的，且失效方式是单向的（高接受率既可能是好也可能是坏）。正确做法是把接受率与”接受后回滚率/纠错率”配对看——单看接受率，就是在给 rubber-stamping 发奖。

§3 第三代：协作者时代——审阅负载比第一次被推过 1

代表产品形态：Cursor Agent Mode、Claude Code、Devin、ChatGPT 的多轮+工具调用。机器一次产出一个完整工件（一个 PR、一份报告、一个多文件改动），人对整体做”通过/打回”。

审阅机制：从”逐块二元决策”变成”工件级评审”——本质是把代码评审（code review）这个原本人审人的工序，原样套到人审机上。但产能侧的物理学彻底变了。Faros AI 对 10,000+ 开发者的数据：高 AI 采用团队 PR 合并数 +98%，但 PR 审阅时间 +91%，平均 PR 体积 +154%（来源：经 Aviator/LogRocket 转引的 Faros AI 数据）。开发者自估提交代码中 42% 为 AI 辅助、两年内将升至 65%，而其中 96% 表示并不完全信任 AI 生成的代码（来源：Sonar “State of Code 2025”，1,100+ 开发者;shiftmag.dev 转载）——“产能高+信任低”的组合正是审阅瓶颈的精确画像。

瓶颈在哪：审阅负载比第一次稳定地 >1。这一代的标志性病理就是 G01 人机审阅关系代际谱系总图命名的”橡皮图章 vs 溺水”二元困境。学术界给出了同构的实证：De Vaan & Stuart 团队分析 2018–2024 超 200 万篇预印本，AI 采用者论文产出 +50% 以上（bioRxiv/SSRN），亚洲机构研究者生产力 +90%，结论是”正在制造巨大瓶颈，评审者极难跟上”（发表于 Science, 2025；来源：UC Berkeley Haas newsroom）。AI 生成的评审本身也在渗透：2025 年 ICLR 约 20%、Nature Communications 约 12% 的评审意见疑为 AI 生成（来源：arXiv 2602.00319;Nature 2025 d41586-025-04032-1）——审阅这一侧自己也开始用 AI 顶包，瓶颈被绕过而非被解决。

更深的机制不是”懒”，而是注意力的结构性有限。Parasuraman & Manzey（2010, Human Factors）的综述给出冷酷结论：automation bias 与 complacency 在新手与专家中均出现，无法通过训练或指令消除，根因是多任务下的 bounded cognitive resources，并提出”learned carelessness”——系统长期表现良好后，人会系统性降低监控强度。第三代把一个高可靠（大多数时候对）、高产能（一次一个 PR）的系统放在被动监控位上，恰好命中 learned carelessness 的全部触发条件。

被下代超越的具体接口：审阅界面本身。第三代仍然把整个工件丢给人，靠人的意志力去顶 >1 的负载比——这必然失败。第四代的突破是不再要求人审全部：用置信度门控把”机器自己有把握的”自动执行，只把”中间地带”路由给人。接口从”工件级通过/打回”升级为”按置信度分流”。

[!warning] failure scenario：协作者这一代的”deskilling 延迟炸弹” 第三代最隐蔽的失效不在当下而在未来。Budzyń et al.（2025, Lancet Gastroenterology & Hepatology；4 中心、19 名经验医生、1,443 例）测到：AI 辅助训练后，医生独立执行肠镜的腺瘤检出率从 28.4% 降到 22.4%——长期依赖 AI 提示导致自主技能退化（来源：EurekAlert 1094223;ASCO Post 2025-08）。航空业的 Air France 447（2009）是同一机制的极端版：飞行员长期被动监控自动驾驶，手动技能退化，自动驾驶在皮托管结冰后断开时，情境意识崩溃致坠机（来源：IEEE Spectrum;BEA 调查报告）。协作者时代越好用，下一代接管者的能力底座越空——这是线性进步叙事完全看不见的代价。

§4 第四代：置信度门控时代——审阅从”全量阅读”变成”分流验证”

代表产品形态：confidence-gated 自动执行的系统、selective prediction/abstention 架构、learning-to-defer 路由器。形态上不一定是新产品，更多是审阅界面的重构：Perplexity 的内联引用分流（高置信直接答、可疑给来源让你查）、Claude Code 的风险感知确认断点（读文件自动、发邮件/转账才拦人，见 p307 - Copilot 到 Autopilot 光谱的风险感知自动降级）。

审阅机制：核心是 selective prediction 的 coverage-accuracy tradeoff——机器低置信时拒绝输出、转人工（Geifman & El-Yaniv, NeurIPS 2017 把 reject option 引入深度网络;SelectiveNet, ICML 2019 把”选择头”端到端联合训练，相对优势达 14.07%）。再加 learning-to-defer（Mozannar & Sontag, ICML 2020 的 consistent surrogate loss，已成标准方法）。审阅负载比第一次被主动压回 1 以下——人不再审全部，只审被路由过来的中间地带。这是第一代以来，第一次有人从架构层面给审阅带宽”减负”而不是”加压”。

瓶颈在哪：瓶颈从”带宽不够”转移到”门控本身可不可信”——而这恰恰是个未解的硬问题。

第一，置信度信号本身常常是错的。Guo et al.（ICML 2017）证明现代深度网络系统性过度自信，温度缩放成为标准后处理校准法；但 Minderer et al.（NeurIPS 2021）发现新架构（ViT 等）校准已改善，2026 年的研究（arXiv 2506.09593）甚至发现当代模型在分布内反而低估自信——校准问题随架构演进不断移动，没有稳定的”信任锚”。

第二，也是更致命的——校准 ≠ 逐样本可信。ICLR 2026 的一篇 blogpost（“What are Calibrated Probabilities Actually Useful for?”）给出本专题最该贴墙上的判断：校准与辨别能力（discrimination）是正交属性；一个对所有输入都输出 50% 置信度的”完美校准”模型，对选择性预测毫无帮助。门控用的是逐样本置信度，但校准只保证批量平均——这个错配是第四代架构的认识论裂缝。

第三，门控在分布漂移下直接失效。Doku（2026, arXiv 2603.09947, “Confidence Gate Theorem”）证明门控单调改善决策质量需满足秩对齐+无反转区两个条件，且区分：结构性不确定性（数据缺失）下门控近单调有效，上下文性不确定性（时序/分布漂移）下门控失效（AUC 从 0.71 降到 0.61–0.62）。Gaus et al.（2026, arXiv 2605.18045）补刀：阈值 τ 的选择对结果的影响远大于不确定性估计方法的选择，且语义 OOD 检测接近随机猜测——真正新颖的情境，正是门控最该兜底、却最兜不住的地方。

被下代超越的具体接口：门控把”该不该让人审”自动化了，但人审本身的有效性它管不了。被路由到人手上的那部分，automation bias 照样发作。第五代的方向是把认知工作前移到审阅之前——不是优化”怎么审 AI 的产出”，而是改变审阅的认知性质本身。

[!warning] failure scenario + confirmation-bias 砍除：HITL 不是万能护栏本专题（和整个业界）早期反复把”human-in-the-loop”当成正面解药——这是 bias，必须补反例。Sele & Chugunova（PLoS ONE 2024）的实验：加入人工监督后，算法建议接受率 +7pp，但预测准确率下降（误差 17.4→18.0 百分位），人类监督者对大误差的纠正倾向反而更低，“未能充当紧急制动器”。换句话说，第四代把可疑案例路由给人，假设了”人会认真审”——但这个假设本身被实证证伪了。门控解决了”审什么”，没解决”人会不会真审”。EU AI Act 第 14 条要求高风险 AI 让用户”知道 automation bias 存在”，但 Laux & Ruschemeier（2025, European Journal of Risk Regulation; arXiv 2502.10036）批评：把”知道有风险”与”实际减轻风险”混同，立法停在感知义务、不触设计义务。

§5 第五代：认知前移时代——审阅从”读产出”退回”验规格”（前沿，多为推测）

代表产品形态：以 spec/规格为中心的工作流、跨上下文审阅（Cross-Context Review）、机械化验证而非批判性阅读的界面。这一代尚未定型，以下多为前沿推测，需打折扣读。

审阅机制：把认知负荷前移到规格说明阶段。Satya Borg 的提法（同前博客）：将审阅从”批判性阅读代码”变成”机械验证代码是否符合已批准的 spec”——降低审阅的内在负荷，让有限的 System 2 投入更有杠杆。配套设计是 Cross-Context Review（arXiv 2603.12123）：另起会话、只给最终产物、不给生产历史，逼迫审阅者从”合理化”切回”批判”，对冲同一会话内的强锚定。

瓶颈在哪（推测）：瓶颈再次转移——从”审产出”前移到”写规格”。但规格本身也得有人写、有人审，注意力守恒可能只是被搬了地方而非被消灭。更根本的隐忧来自 arXiv 2603.26707（“The Cognitive Divergence”, 2026）：它主张 AI 上下文窗口 2017→2026 增长约 3906 倍，而人类有效上下文跨度（ECS）估算下降约 89%——若属实，则无论审阅前移到哪一层，人机能力差距都在拉大，“人类审阅”作为终极护栏可能在结构上不可持续。⚠️该论文的 ECS 数字系作者自行估算、未经同行评审，方法论争议大，请仅作问题指示、勿引用具体数字。

会被什么超越（开放）：如果 ECS 下降的趋势成立，第六代的方向可能是机器审机器（AI 评审 AI，配少量人类抽样审计），即把人类从逐案审阅彻底移到统计抽检+流程设计。但这会撞上 c13 - 幻觉的不可消除性：机器审阅者同样会幻觉、同样会谄媚——AI 评审渗透数据（§3 的 ICLR 20%）已经是这条路的早期预演，且早期信号是”绕过瓶颈”而非”解决瓶颈”。这一格是开放的，本专题不下定论。

§6 判断主轴：逐代演化里 90% 的人会搞错的四个点

这是区分”PM 顶刊”与”技术博客”的命门。

错位一：把代际等同于”越来越好”。

症状：汇报里画一条向上的箭头，“我们从被动工具进化到了协作者”。
为什么会错：每一代的”超越”都引入了上一代没有的失效模式——第二代引入指标错位（接受率毒化），第三代引入 deskilling 与 learned carelessness，第四代引入门控的认识论裂缝（校准≠逐样本可信）。
正确做法：每画一代的”得”，强制配一条”新增的失”,负载比是否被压回 1 以下才是真进步。
真实反例：Air France 447——更先进的自动驾驶（第三代式协作）直接导致接管时的能力真空（来源：BEA 调查报告）。

错位二：把”接受率高”读成”质量好”。

症状：用接受率给 AI 功能背书。
为什么会错：高接受率与 rubber-stamping 在行为日志里同构，无法区分。
正确做法：接受率必须与回滚率/纠错率配对；单看接受率等于奖励橡皮图章。
真实反例：Sele & Chugunova 2024——加了人审，接受率↑而准确率↓。

错位三：把 human-in-the-loop 当成自动有效的护栏。

症状：合规文档写”高风险操作有人工审核”就当风险已闭环。
为什么会错：automation bias 让被路由来的案例照样被橡皮图章；Wilson/Caliskan（2025, AAAI-AIES, 528 人）测得严重偏见条件下 90% 决策追随 AI、即便自称不信任 AI 决策仍偏移近 50pp。
正确做法：HITL 的有效性要被单独度量（纠错率、对大误差的捕获率），不能假设。
真实反例：EU AI Act 第 14 条只立”感知义务”不立”设计义务”（Laux & Ruschemeier 2025）。

错位四：把置信度门控当成可以一劳永逸部署的银弹。

症状：上线 confidence-gated 自动执行后不再监控门控本身。
为什么会错：分布漂移下门控失效（Doku 2026，AUC 0.71→0.61）；校准随架构移动（Guo 2017 过度自信 vs 2026 低估自信）。
正确做法：在保留集上预验秩对齐+无反转区条件,且持续监控门控漂移;阈值 τ 比方法更重要（Gaus 2026）。
真实反例：语义 OOD 检测接近随机——最该兜底处最兜不住。

§7 产品 PM 视角补盲

工程视角只看”负载比怎么压回 1”，PM 还得看三件工程视角看不见的事：

用户心理模型的代际错配。用户对”建议者”（第二代）的心理预期是”它会犯错，我把关”；但同一个用户面对”协作者”（第三代）时，预期会被产能假象悄悄拉高到”它基本对，我抽查”——产品没换，用户的审阅强度却暗自下调了。这是 learned carelessness 的产品化版本。PM 的活：在界面上主动重置用户的审阅心理预期（如对高风险输出强制展开推理面板，见 p304 - 防御性 UX：对抗延迟与幻觉的置信度外显）。
商业模式与审阅瓶颈的紧张。SaaS 的增长指标偏爱”接受率/采纳率”（好埋点、好讲故事），但这恰是会奖励 rubber-stamping 的指标。如果定价/留存挂在接受率上，产品会被结构性激励去降低审阅摩擦——这与安全目标直接冲突。这是 0117社会学意义上的指标治理问题，下一节展开。
合规边界的代际滞后。监管（EU AI Act）停在第四代的”感知义务”，而产品已经跑到第五代的认知前移。PM 做国际化（Rick 的 99/DiDi 场景）时，合规文本里写的”人工审核”在 automation bias 下可能是纸面护栏——出事时这是法律风险，不是工程风险。

§8 跨域呼应：审阅是 verification 还是 rubber-stamping，本质是一个认识论问题

调度一个跨域资源：福柯的”考试/检查”（examination）权力技术（0117社会学）。福柯指出，examination 把”被检查者”变成可量化、可记录、可比较的对象，权力通过这套规训技术运作——但他追问的是”谁在检查、检查使谁可见”。把这个透镜对准人机审阅：第二代到第四代的演化，表面是”人检查机器”，实际权力关系在悄悄反转——当审阅负载比 >1，是机器的产出节奏在规训人的注意力（freight train at 1000 tok/sec），人沦为流水线上盖章的工序。“人在环路”的话术维持了”人在检查机器”的表象，掩盖了实质上”机器在设定人的审阅节奏”。

这直接改变一个技术判断：审阅界面的设计目标，不该是”让人审得更快”（那只是更高效的盖章），而该是重建人的检查权力——即把节奏控制权从机器产出速率夺回到人这一侧。confidence-gated 分流、cross-context review 另起会话、spec 前移，三者的共同点正是夺回节奏：不让机器的产能决定人审多少。这也回到认识论核心命题（0114认识论）：审阅 AI 报告若只是在机器设定的节奏里盖章，那它是 rubber-stamping 的认识论——一种 justified-true-belief 的假象；只有当人能控制审阅的节奏与切入点（重新形成独立判断后再看 AI 输出），它才回到 verification。这条判断直接决定 confidence display / citation / HITL 触发的设计：所有这些界面元素的成败，要用”它是否把检查权力还给了人”来评判，而不是”它是否提高了吞吐”。

[!note] Rick 的一手观察（E 节点会展开，此处先记）在深度使用 Claude Code 的过程中，我自己反复经历第三/第四代的真实拉锯：agent 一次改十几个文件时，我的审阅确实滑向”扫一眼 diff 统计就 commit”的橡皮图章；而当我先写清 spec、再让它做、最后只验”是否符合 spec”时，审阅的认知性质明显从”批判性阅读 288 行陌生代码”退回”机械核对契约”——主观负荷骤降。这条一手体验与 §5 的 spec 前移机制吻合,但 n=1，不是实证，仅作 E 节点的研究材料锚点。

§9 PM 决策启示

面试怎么用：被问”你怎么设计 AI 功能的人审环节”，不要答”加个 human-in-the-loop”。答：“先判断这个功能的审阅负载比——如果 >1，单纯加人审会变成橡皮图章（引 Sele & Chugunova 2024），我会先做置信度分流把负载比压回 1，再用 cross-context 或 spec 前移改变审阅的认知性质。“30 秒展示判断密度。
选型怎么用：评估 AI 工具别只看产能（PR +98%）和接受率，要问供应商三个问题——(1) 你怎么度量”接受后回滚率”？(2) 置信度信号校准过吗、在分布漂移下监控吗？(3) 你的 HITL 有没有度量过对大误差的真实捕获率？答不上来的，它卖的是产能、不是安全。
复现怎么用：自己搭审阅界面时，把”审阅负载比”做成一个可观测指标（路由给人的 token 量 ÷ 人的处理时长），并把 confidence-gated 分流的阈值 τ 作为头等可调参数（Gaus 2026：τ 比方法更重要）。

§10 与已有节点的关系

对照 G01 人机审阅关系代际谱系总图：本节点是 G01 总图的逐代展开与深化，G01 给五代命名、谱系图、负载比曲线与风险迁移表（骨架），本节点给每代的”产品形态/机制/瓶颈/被超越接口”四件套与实证接地（血肉）。两者共用同一根分界轴（审阅负载比）与同名同序的五代，不复述 G01 的谱系结论。
对照 p307 - Copilot 到 Autopilot 光谱：纠偏+补缺。p307 的 L0–L4 是控制权（供给侧）轴，本节点提出正交的”审阅负载比”（需求侧）轴，解释 p307 解释不了的”为何更自动反而更差”。
对照 p305 - 信任架构与可解释性设计：深化。p305 讲信任校准与 learned carelessness 的成因，本节点把它放进代际时间轴，说明它在哪一代成为结构性病灶。
对照 c13 - 幻觉的不可消除性：对话。c13 论证幻觉架构性不可消除，本节点接着追问”既然幻觉不可消除、审阅又会橡皮图章，第五/六代靠什么兜底”，把 c13 的结论推向审阅瓶颈的开放问题。
对照 p304 - 防御性 UX：对抗延迟与幻觉与 p306 - 数据飞轮与反馈回路设计：分别在置信度外显（第四代界面）与接受率指标（第二代毒化）两处做精确引用，不展开其事实基础。

§11 关联节点

核心（必读）

G01 人机审阅关系代际谱系总图（本节点的总图）
p307 - Copilot 到 Autopilot 光谱（正交轴对照）
p305 - 信任架构与可解释性设计（learned carelessness 成因）
c13 - 幻觉的不可消除性（兜底问题的源头）
p304 - 防御性 UX：对抗延迟与幻觉（置信度外显界面）

延伸（可选）

p302 - 七种 AI 交互设计模式
p306 - 数据飞轮与反馈回路设计
Test-Time Compute（System 2 投入的杠杆化）
Agent、Claude Code、ChatGPT、Claude、Perplexity
0114认识论、0117社会学
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07）：首稿。建立”审阅负载比”框架（§0 与 L0–L4 正交辨析）；五代逐代四件套展开；每代配 failure scenario 反例破线性进步叙事；判断主轴四错位；福柯 examination 跨域呼应落地到”夺回审阅节奏”的技术判断；Claude Code 一手观察锚点。待 grounding pass 复核 Faros AI/Developer Survey 2025 具体口径与 ECS 数字降级处理。
2026-06-11 P3.1 修与 G01 的互相误述（G01 此次已升为五代）。§0 引言把对 G01 的描述从笼统”五代演化总图”改为列明五代同名同序 + 点明共用”审阅负载比”分界轴；§10 把”G01 给五代命名与一张图”改为准确表述（命名+谱系图+负载比曲线+风险迁移表，骨架/血肉分工，共用分界轴）。本节点五代骨架（§1–§5）与第六代开放格未改，仅校准对 G01 的引述。依据：G01 升五代后两文件命名需一致。