R

G02 审阅关系代际演化详解

创建 2026-06-07 更新 2026-06-11 1 条双链 审阅瓶颈 专题 AI 整理

G02 审阅关系代际演化详解

本节点要解决的问题:G01 人机审阅关系代际谱系总图 给了一张人机审阅关系五代谱系的总图——五代为①被动工具 ②建议者 ③协作者 ④置信度门控 ⑤认知前移,与本节点 §1–§5 严格同名同序,且共用同一根分界轴”审阅负载比”(见 §0)。但总图是压缩视图:它给骨架、命名、负载比曲线与风险迁移,没告诉你每一代”靠什么产品形态成立、审阅机制长什么样、瓶颈卡在哪里、又是被下一代的什么东西超越的”。本节点把那张图逐代展开,每一代用代表产品形态 → 审阅机制 → 瓶颈 → 被下代超越的具体接口四件套钉死,并刻意拒绝”一代更比一代强”的线性进步叙事——每一代的”超越”都同时引入了新的、上一代没有的失效模式。视角框架:把”审阅”当作一个有带宽上限的生产工序,而不是一个道德姿态。

§0 为什么用”审阅带宽”这个框架,而不是”自动化等级”

读到”人机关系代际演化”,PM 脑子里第一个跳出来的框架通常是 p307 - Copilot 到 Autopilot 光谱 的 L0–L4 控制权分配,或者汽车业的 SAE 自动驾驶分级。这个默认框架在这里会误导,必须先挡掉。

L0–L4 光谱测量的是”机器拿走了多少控制权”——它的轴是控制权的让渡。但本专题的核心命题是另一回事:当 AI 让生产成本趋零,瓶颈从”生产能力”反转为”人类审阅带宽”(这条主轴在 G01 人机审阅关系代际谱系总图 已确立)。控制权光谱回答不了”为什么 L2 协作者比 L1 建议者更危险”——因为它的轴上 L2 只是”更自动”,看不见 L2 恰恰是审阅带宽被击穿的那一代。

所以本节点换一根轴:单位时间内,机器要求人类审阅的信息量 ÷ 人类的有效审阅带宽。这个比值我称为”审阅负载比”。比值 <1,人类审得过来,关系稳定;比值 >1,要么溺水(drowning)、要么橡皮图章(rubber-stamping),二者必居其一——这个二元困境的最锋利表述来自 Satya Borg 的博客(“Human Review is the Bottleneck”, 2026):“An agent’s code hits you like a freight train at 1000 tok/sec with zero mortal constraints.”(来源:satyaborg.com/blog/human-review-bottleneck)。代际演化的真正驱动力,是这个比值被反复推过 1、又被新的审阅界面设计压回 1 以下的拉锯。这根轴比 L0–L4 更能解释”为什么有些自动化反而让结果变差”。

[!note] 与 L0–L4 的关系不是替代,是正交 控制权光谱是”机器能做多少”的供给侧视角;审阅负载比是”人能验多少”的需求侧视角。一个 L4 自治系统如果配了一个把审阅负载比压到 0.3 的好界面(confidence-gated 自动执行,只把 0.6–0.9 区间的吐给人),它的人机关系可以比一个界面糟糕的 L2 协作者更健康。这正是 G 代际不等于 L 等级的原因。


§1 第一代:被动工具时代——审阅根本不是问题

代表产品形态:拼写检查、语法高亮、IDE 静态分析(早期 IntelliSense)、Office 的红绿波浪线。机器在你已经写完的东西上做标注,等你来看。

审阅机制:人是生产者,机器是审阅者中的一个”提示源”。注意力流向是”人主动扫一眼机器的标注,绝大多数忽略”。机器的产出是离散、稀疏、局部的——一条波浪线只覆盖一个词,认知成本几乎为零。

瓶颈在哪:瓶颈仍然牢牢卡在人类的生产能力上。机器审得再快也没用,因为内容是人一个字一个字敲出来的。审阅负载比远小于 1——机器一天给你标 50 个拼写错,你扫一眼就过。这一代的人机关系是稳定的,因为机器的”产能”被人的打字速度天然限流了。

被下代超越的具体接口:当机器从”标注人写的东西”变成”替人写”,第一代就被掀翻了。临界点是生成能力的出现——机器不再在你的产出上做减法(挑错),而是直接做加法(产出)。Copilot 2021 年的 ghost text 就是那个接口:灰色预览文字直接出现在光标后,人第一次需要审阅”机器主动生产的内容”。

[!warning] 反例:第一代并非”原始而落后” 进步主义叙事会说”被动工具弱爆了”。但被动工具有一个后几代都丢失的优点:它从不抢在你形成判断之前给答案。波浪线出现时,句子已经是你写的,你的心智模型是完整的——不存在锚定。后面会看到,从第二代起,“AI 先于人的独立判断出现”成了 automation bias 的结构性温床(p305 - 信任架构与可解释性设计 §RLHF 自信语气、c13 - 幻觉的不可消除性 校准失准)。第一代的”笨”恰恰豁免了它最致命的认知陷阱。


§2 第二代:建议者时代——接受率成为唯一指标,质量被悄悄外包

代表产品形态:GitHub Copilot 的行内补全(2021–2023)、ChatGPT 早期单轮问答、搜索引擎的”猜你想搜”。机器一次产出一小块(一行代码、一段话),人逐块决定接受/拒绝。

审阅机制:Tab 接受、Esc 拒绝。审阅被切成高频小颗粒的二元决策。这一代发明了一个看似中性、实则有毒的指标——接受率。ZoomInfo 对 400+ 开发者的研究(arXiv 2501.13282, 2023–2024)测得:建议接受率 33%,代码行接受率 20%;GitHub 官方数据则是新手平均 31.9%、资深 26.2%。Communications of the ACM 综述给出的合并区间是 21.2%–23.5%。

瓶颈在哪:瓶颈第一次离开生产侧、贴近审阅侧,但还没击穿。因为颗粒度小(一行代码),单次审阅的认知负荷仍在工作记忆容量内——Miller 的 7±2 或 Cowan 更严格的约 4 个组块(来源:Cowan 2001, Behavioral and Brain Sciences;Miller 1956, Psychological Review)都还兜得住一行代码。真正的病灶是指标错位:“接受率”测的是行为日志,不是代码正确性。接受率高可能意味着 AI 好,也可能意味着人在橡皮图章——这两者在日志里长得一模一样。这是第二代埋下的、要到第三、四代才彻底爆炸的雷。

被下代超越的具体接口:颗粒度。当 AI 从”补全一行”变成”agent 模式一次改 12 个文件”,逐 hunk 的二元决策接口直接崩溃——你不可能对 288 行的变更逐 hunk 按 Tab。LogRocket 的实测对比很刺眼:同一个重构任务,人类写 26 行,Claude Code 产出 288 行;审阅时间从 4–5 分钟涨到 15–20 分钟(来源:blog.logrocket.com/ai-coding-tools-shift-bottleneck-to-review/)。颗粒度一变大,第二代的审阅接口就过载了。

[!note] 对手框架回应:接受率不是没用,是被错配了 业界(尤其增长团队)会反驳:“接受率是我们唯一能规模化埋点的信号,你让我们用什么?“接受它对的部分——接受率作为采纳意愿的代理是有效的,p306 - 数据飞轮与反馈回路设计 正是靠它驱动模型迭代。标注本专题的边界:接受率作为质量代理是失效的,且失效方式是单向的(高接受率既可能是好也可能是坏)。正确做法是把接受率与”接受后回滚率/纠错率”配对看——单看接受率,就是在给 rubber-stamping 发奖。


§3 第三代:协作者时代——审阅负载比第一次被推过 1

代表产品形态:Cursor Agent Mode、Claude Code、Devin、ChatGPT 的多轮+工具调用。机器一次产出一个完整工件(一个 PR、一份报告、一个多文件改动),人对整体做”通过/打回”。

审阅机制:从”逐块二元决策”变成”工件级评审”——本质是把代码评审(code review)这个原本人审人的工序,原样套到人审机上。但产能侧的物理学彻底变了。Faros AI 对 10,000+ 开发者的数据:高 AI 采用团队 PR 合并数 +98%,但 PR 审阅时间 +91%,平均 PR 体积 +154%(来源:经 Aviator/LogRocket 转引的 Faros AI 数据)。开发者自估提交代码中 42% 为 AI 辅助、两年内将升至 65%,而其中 96% 表示并不完全信任 AI 生成的代码(来源:Sonar “State of Code 2025”,1,100+ 开发者;shiftmag.dev 转载)——“产能高+信任低”的组合正是审阅瓶颈的精确画像。

瓶颈在哪:审阅负载比第一次稳定地 >1。这一代的标志性病理就是 G01 人机审阅关系代际谱系总图 命名的”橡皮图章 vs 溺水”二元困境。学术界给出了同构的实证:De Vaan & Stuart 团队分析 2018–2024 超 200 万篇预印本,AI 采用者论文产出 +50% 以上(bioRxiv/SSRN),亚洲机构研究者生产力 +90%,结论是”正在制造巨大瓶颈,评审者极难跟上”(发表于 Science, 2025;来源:UC Berkeley Haas newsroom)。AI 生成的评审本身也在渗透:2025 年 ICLR 约 20%、Nature Communications 约 12% 的评审意见疑为 AI 生成(来源:arXiv 2602.00319;Nature 2025 d41586-025-04032-1)——审阅这一侧自己也开始用 AI 顶包,瓶颈被绕过而非被解决。

更深的机制不是”懒”,而是注意力的结构性有限。Parasuraman & Manzey(2010, Human Factors)的综述给出冷酷结论:automation bias 与 complacency 在新手与专家中均出现,无法通过训练或指令消除,根因是多任务下的 bounded cognitive resources,并提出”learned carelessness”——系统长期表现良好后,人会系统性降低监控强度。第三代把一个高可靠(大多数时候对)、高产能(一次一个 PR)的系统放在被动监控位上,恰好命中 learned carelessness 的全部触发条件。

被下代超越的具体接口:审阅界面本身。第三代仍然把整个工件丢给人,靠人的意志力去顶 >1 的负载比——这必然失败。第四代的突破是不再要求人审全部:用置信度门控把”机器自己有把握的”自动执行,只把”中间地带”路由给人。接口从”工件级通过/打回”升级为”按置信度分流”。

[!warning] failure scenario:协作者这一代的”deskilling 延迟炸弹” 第三代最隐蔽的失效不在当下而在未来。Budzyń et al.(2025, Lancet Gastroenterology & Hepatology;4 中心、19 名经验医生、1,443 例)测到:AI 辅助训练后,医生独立执行肠镜的腺瘤检出率从 28.4% 降到 22.4%——长期依赖 AI 提示导致自主技能退化(来源:EurekAlert 1094223;ASCO Post 2025-08)。航空业的 Air France 447(2009)是同一机制的极端版:飞行员长期被动监控自动驾驶,手动技能退化,自动驾驶在皮托管结冰后断开时,情境意识崩溃致坠机(来源:IEEE Spectrum;BEA 调查报告)。协作者时代越好用,下一代接管者的能力底座越空——这是线性进步叙事完全看不见的代价。


§4 第四代:置信度门控时代——审阅从”全量阅读”变成”分流验证”

代表产品形态:confidence-gated 自动执行的系统、selective prediction/abstention 架构、learning-to-defer 路由器。形态上不一定是新产品,更多是审阅界面的重构:Perplexity 的内联引用分流(高置信直接答、可疑给来源让你查)、Claude Code 的风险感知确认断点(读文件自动、发邮件/转账才拦人,见 p307 - Copilot 到 Autopilot 光谱 的风险感知自动降级)。

审阅机制:核心是 selective prediction 的 coverage-accuracy tradeoff——机器低置信时拒绝输出、转人工(Geifman & El-Yaniv, NeurIPS 2017 把 reject option 引入深度网络;SelectiveNet, ICML 2019 把”选择头”端到端联合训练,相对优势达 14.07%)。再加 learning-to-defer(Mozannar & Sontag, ICML 2020 的 consistent surrogate loss,已成标准方法)。审阅负载比第一次被主动压回 1 以下——人不再审全部,只审被路由过来的中间地带。这是第一代以来,第一次有人从架构层面给审阅带宽”减负”而不是”加压”。

瓶颈在哪:瓶颈从”带宽不够”转移到”门控本身可不可信”——而这恰恰是个未解的硬问题。

第一,置信度信号本身常常是错的。Guo et al.(ICML 2017)证明现代深度网络系统性过度自信,温度缩放成为标准后处理校准法;但 Minderer et al.(NeurIPS 2021)发现新架构(ViT 等)校准已改善,2026 年的研究(arXiv 2506.09593)甚至发现当代模型在分布内反而低估自信——校准问题随架构演进不断移动,没有稳定的”信任锚”。

第二,也是更致命的——校准 ≠ 逐样本可信。ICLR 2026 的一篇 blogpost(“What are Calibrated Probabilities Actually Useful for?”)给出本专题最该贴墙上的判断:校准与辨别能力(discrimination)是正交属性;一个对所有输入都输出 50% 置信度的”完美校准”模型,对选择性预测毫无帮助。门控用的是逐样本置信度,但校准只保证批量平均——这个错配是第四代架构的认识论裂缝。

第三,门控在分布漂移下直接失效。Doku(2026, arXiv 2603.09947, “Confidence Gate Theorem”)证明门控单调改善决策质量需满足秩对齐+无反转区两个条件,且区分:结构性不确定性(数据缺失)下门控近单调有效,上下文性不确定性(时序/分布漂移)下门控失效(AUC 从 0.71 降到 0.61–0.62)。Gaus et al.(2026, arXiv 2605.18045)补刀:阈值 τ 的选择对结果的影响远大于不确定性估计方法的选择,且语义 OOD 检测接近随机猜测——真正新颖的情境,正是门控最该兜底、却最兜不住的地方。

被下代超越的具体接口:门控把”该不该让人审”自动化了,但人审本身的有效性它管不了。被路由到人手上的那部分,automation bias 照样发作。第五代的方向是把认知工作前移到审阅之前——不是优化”怎么审 AI 的产出”,而是改变审阅的认知性质本身。

[!warning] failure scenario + confirmation-bias 砍除:HITL 不是万能护栏 本专题(和整个业界)早期反复把”human-in-the-loop”当成正面解药——这是 bias,必须补反例。Sele & Chugunova(PLoS ONE 2024)的实验:加入人工监督后,算法建议接受率 +7pp,但预测准确率下降(误差 17.4→18.0 百分位),人类监督者对大误差的纠正倾向反而更低,“未能充当紧急制动器”。换句话说,第四代把可疑案例路由给人,假设了”人会认真审”——但这个假设本身被实证证伪了。门控解决了”审什么”,没解决”人会不会真审”。EU AI Act 第 14 条要求高风险 AI 让用户”知道 automation bias 存在”,但 Laux & Ruschemeier(2025, European Journal of Risk Regulation; arXiv 2502.10036)批评:把”知道有风险”与”实际减轻风险”混同,立法停在感知义务、不触设计义务。


§5 第五代:认知前移时代——审阅从”读产出”退回”验规格”(前沿,多为推测)

代表产品形态:以 spec/规格为中心的工作流、跨上下文审阅(Cross-Context Review)、机械化验证而非批判性阅读的界面。这一代尚未定型,以下多为前沿推测,需打折扣读。

审阅机制:把认知负荷前移到规格说明阶段。Satya Borg 的提法(同前博客):将审阅从”批判性阅读代码”变成”机械验证代码是否符合已批准的 spec”——降低审阅的内在负荷,让有限的 System 2 投入更有杠杆。配套设计是 Cross-Context Review(arXiv 2603.12123):另起会话、只给最终产物、不给生产历史,逼迫审阅者从”合理化”切回”批判”,对冲同一会话内的强锚定。

瓶颈在哪(推测):瓶颈再次转移——从”审产出”前移到”写规格”。但规格本身也得有人写、有人审,注意力守恒可能只是被搬了地方而非被消灭。更根本的隐忧来自 arXiv 2603.26707(“The Cognitive Divergence”, 2026):它主张 AI 上下文窗口 2017→2026 增长约 3906 倍,而人类有效上下文跨度(ECS)估算下降约 89%——若属实,则无论审阅前移到哪一层,人机能力差距都在拉大,“人类审阅”作为终极护栏可能在结构上不可持续。⚠️该论文的 ECS 数字系作者自行估算、未经同行评审,方法论争议大,请仅作问题指示、勿引用具体数字。

会被什么超越(开放):如果 ECS 下降的趋势成立,第六代的方向可能是机器审机器(AI 评审 AI,配少量人类抽样审计),即把人类从逐案审阅彻底移到统计抽检+流程设计。但这会撞上 c13 - 幻觉的不可消除性:机器审阅者同样会幻觉、同样会谄媚——AI 评审渗透数据(§3 的 ICLR 20%)已经是这条路的早期预演,且早期信号是”绕过瓶颈”而非”解决瓶颈”。这一格是开放的,本专题不下定论。


§6 判断主轴:逐代演化里 90% 的人会搞错的四个点

这是区分”PM 顶刊”与”技术博客”的命门。

错位一:把代际等同于”越来越好”。

  • 症状:汇报里画一条向上的箭头,“我们从被动工具进化到了协作者”。
  • 为什么会错:每一代的”超越”都引入了上一代没有的失效模式——第二代引入指标错位(接受率毒化),第三代引入 deskilling 与 learned carelessness,第四代引入门控的认识论裂缝(校准≠逐样本可信)。
  • 正确做法:每画一代的”得”,强制配一条”新增的失”,负载比是否被压回 1 以下才是真进步。
  • 真实反例:Air France 447——更先进的自动驾驶(第三代式协作)直接导致接管时的能力真空(来源:BEA 调查报告)。

错位二:把”接受率高”读成”质量好”。

  • 症状:用接受率给 AI 功能背书。
  • 为什么会错:高接受率与 rubber-stamping 在行为日志里同构,无法区分。
  • 正确做法:接受率必须与回滚率/纠错率配对;单看接受率等于奖励橡皮图章。
  • 真实反例:Sele & Chugunova 2024——加了人审,接受率↑而准确率↓。

错位三:把 human-in-the-loop 当成自动有效的护栏。

  • 症状:合规文档写”高风险操作有人工审核”就当风险已闭环。
  • 为什么会错:automation bias 让被路由来的案例照样被橡皮图章;Wilson/Caliskan(2025, AAAI-AIES, 528 人)测得严重偏见条件下 90% 决策追随 AI、即便自称不信任 AI 决策仍偏移近 50pp。
  • 正确做法:HITL 的有效性要被单独度量(纠错率、对大误差的捕获率),不能假设。
  • 真实反例:EU AI Act 第 14 条只立”感知义务”不立”设计义务”(Laux & Ruschemeier 2025)。

错位四:把置信度门控当成可以一劳永逸部署的银弹。

  • 症状:上线 confidence-gated 自动执行后不再监控门控本身。
  • 为什么会错:分布漂移下门控失效(Doku 2026,AUC 0.71→0.61);校准随架构移动(Guo 2017 过度自信 vs 2026 低估自信)。
  • 正确做法:在保留集上预验秩对齐+无反转区条件,且持续监控门控漂移;阈值 τ 比方法更重要(Gaus 2026)。
  • 真实反例:语义 OOD 检测接近随机——最该兜底处最兜不住。

§7 产品 PM 视角补盲

工程视角只看”负载比怎么压回 1”,PM 还得看三件工程视角看不见的事:

  1. 用户心理模型的代际错配。用户对”建议者”(第二代)的心理预期是”它会犯错,我把关”;但同一个用户面对”协作者”(第三代)时,预期会被产能假象悄悄拉高到”它基本对,我抽查”——产品没换,用户的审阅强度却暗自下调了。这是 learned carelessness 的产品化版本。PM 的活:在界面上主动重置用户的审阅心理预期(如对高风险输出强制展开推理面板,见 p304 - 防御性 UX:对抗延迟与幻觉 的置信度外显)。

  2. 商业模式与审阅瓶颈的紧张。SaaS 的增长指标偏爱”接受率/采纳率”(好埋点、好讲故事),但这恰是会奖励 rubber-stamping 的指标。如果定价/留存挂在接受率上,产品会被结构性激励去降低审阅摩擦——这与安全目标直接冲突。这是 0117社会学 意义上的指标治理问题,下一节展开。

  3. 合规边界的代际滞后。监管(EU AI Act)停在第四代的”感知义务”,而产品已经跑到第五代的认知前移。PM 做国际化(Rick 的 99/DiDi 场景)时,合规文本里写的”人工审核”在 automation bias 下可能是纸面护栏——出事时这是法律风险,不是工程风险。


§8 跨域呼应:审阅是 verification 还是 rubber-stamping,本质是一个认识论问题

调度一个跨域资源:福柯的”考试/检查”(examination)权力技术(0117社会学)。福柯指出,examination 把”被检查者”变成可量化、可记录、可比较的对象,权力通过这套规训技术运作——但他追问的是”谁在检查、检查使谁可见”。把这个透镜对准人机审阅:第二代到第四代的演化,表面是”人检查机器”,实际权力关系在悄悄反转——当审阅负载比 >1,是机器的产出节奏在规训人的注意力(freight train at 1000 tok/sec),人沦为流水线上盖章的工序。“人在环路”的话术维持了”人在检查机器”的表象,掩盖了实质上”机器在设定人的审阅节奏”。

这直接改变一个技术判断:审阅界面的设计目标,不该是”让人审得更快”(那只是更高效的盖章),而该是重建人的检查权力——即把节奏控制权从机器产出速率夺回到人这一侧。confidence-gated 分流、cross-context review 另起会话、spec 前移,三者的共同点正是夺回节奏:不让机器的产能决定人审多少。这也回到认识论核心命题(0114认识论):审阅 AI 报告若只是在机器设定的节奏里盖章,那它是 rubber-stamping 的认识论——一种 justified-true-belief 的假象;只有当人能控制审阅的节奏与切入点(重新形成独立判断后再看 AI 输出),它才回到 verification。这条判断直接决定 confidence display / citation / HITL 触发的设计:所有这些界面元素的成败,要用”它是否把检查权力还给了人”来评判,而不是”它是否提高了吞吐”。

[!note] Rick 的一手观察(E 节点会展开,此处先记) 在深度使用 Claude Code 的过程中,我自己反复经历第三/第四代的真实拉锯:agent 一次改十几个文件时,我的审阅确实滑向”扫一眼 diff 统计就 commit”的橡皮图章;而当我先写清 spec、再让它做、最后只验”是否符合 spec”时,审阅的认知性质明显从”批判性阅读 288 行陌生代码”退回”机械核对契约”——主观负荷骤降。这条一手体验与 §5 的 spec 前移机制吻合,但 n=1,不是实证,仅作 E 节点的研究材料锚点。


§9 PM 决策启示

  • 面试怎么用:被问”你怎么设计 AI 功能的人审环节”,不要答”加个 human-in-the-loop”。答:“先判断这个功能的审阅负载比——如果 >1,单纯加人审会变成橡皮图章(引 Sele & Chugunova 2024),我会先做置信度分流把负载比压回 1,再用 cross-context 或 spec 前移改变审阅的认知性质。“30 秒展示判断密度。
  • 选型怎么用:评估 AI 工具别只看产能(PR +98%)和接受率,要问供应商三个问题——(1) 你怎么度量”接受后回滚率”?(2) 置信度信号校准过吗、在分布漂移下监控吗?(3) 你的 HITL 有没有度量过对大误差的真实捕获率?答不上来的,它卖的是产能、不是安全。
  • 复现怎么用:自己搭审阅界面时,把”审阅负载比”做成一个可观测指标(路由给人的 token 量 ÷ 人的处理时长),并把 confidence-gated 分流的阈值 τ 作为头等可调参数(Gaus 2026:τ 比方法更重要)。

§10 与已有节点的关系

  • 对照 G01 人机审阅关系代际谱系总图:本节点是 G01 总图的逐代展开与深化,G01 给五代命名、谱系图、负载比曲线与风险迁移表(骨架),本节点给每代的”产品形态/机制/瓶颈/被超越接口”四件套与实证接地(血肉)。两者共用同一根分界轴(审阅负载比)与同名同序的五代,不复述 G01 的谱系结论。
  • 对照 p307 - Copilot 到 Autopilot 光谱纠偏+补缺。p307 的 L0–L4 是控制权(供给侧)轴,本节点提出正交的”审阅负载比”(需求侧)轴,解释 p307 解释不了的”为何更自动反而更差”。
  • 对照 p305 - 信任架构与可解释性设计深化。p305 讲信任校准与 learned carelessness 的成因,本节点把它放进代际时间轴,说明它在哪一代成为结构性病灶。
  • 对照 c13 - 幻觉的不可消除性对话。c13 论证幻觉架构性不可消除,本节点接着追问”既然幻觉不可消除、审阅又会橡皮图章,第五/六代靠什么兜底”,把 c13 的结论推向审阅瓶颈的开放问题。
  • 对照 p304 - 防御性 UX:对抗延迟与幻觉p306 - 数据飞轮与反馈回路设计:分别在置信度外显(第四代界面)与接受率指标(第二代毒化)两处做精确引用,不展开其事实基础。

§11 关联节点

核心(必读)

延伸(可选)

修订日志

  • R1(2026-06-07):首稿。建立”审阅负载比”框架(§0 与 L0–L4 正交辨析);五代逐代四件套展开;每代配 failure scenario 反例破线性进步叙事;判断主轴四错位;福柯 examination 跨域呼应落地到”夺回审阅节奏”的技术判断;Claude Code 一手观察锚点。待 grounding pass 复核 Faros AI/Developer Survey 2025 具体口径与 ECS 数字降级处理。
  • 2026-06-11 P3.1 修与 G01 的互相误述(G01 此次已升为五代)。§0 引言把对 G01 的描述从笼统”五代演化总图”改为列明五代同名同序 + 点明共用”审阅负载比”分界轴;§10 把”G01 给五代命名与一张图”改为准确表述(命名+谱系图+负载比曲线+风险迁移表,骨架/血肉分工,共用分界轴)。本节点五代骨架(§1–§5)与第六代开放格未改,仅校准对 G01 的引述。依据:G01 升五代后两文件命名需一致。