G01 AI 失败模式代际演化总图

本节点要解决的问题不是”AI 历史上出过哪些事故”——那是清单，不是知识。它要解决的是：当能力代际从规则 bot → 监督式 ML → 对齐 LLM → 自主 Agent 跃迁时，失败模式本身遵循什么演化规律? 我用的框架是一句反共识断言——失败模式不是被新一代消灭的，而是被新一代”叠加 + 变形 + 升维”的。旧失败极少真正消失，它沉到栈底成为”已知风险层”;新能力在它之上长出一类全新的、上一代根本无法表达的失败。这是一张地层图,不是一条进步曲线。读完它,一个 PM 应能在 30 秒内回答:“我这个产品处在哪一代,因此我的失败预算该押在哪一层。“

§0 为什么是”地层叠加”框架,而不是”代际进步”框架

谈技术演化,大脑的默认框架是进步叙事:Tay 那种蠢事现在不会发生了,Bard 那种事实错误被 RAG 解决了,我们在变好。这个框架是错的,而且错得危险——它会让 PM 把”上一代的失败”从风险清单里划掉。

更糟的默认框架是case-by-case 编年史:把每个事故当孤立八卦讲。这正是 AI Incident Database 的方法论困境——截至 2026-06-04 它收录了 1,516 个 incident(来源:incidentdatabase.ai),但其 taxonomy 字段是可选填的,实践中填写不一致,导致跨 incident 的系统性分析极难(来源:arxiv 2501.17037v1,IEEE PuneCon 2024)。一万个故事不等于一个规律。

本专题的方法论立场(在 [A02 AI 产品失败分类学·五类](/kb/专题-安全对齐与失败/a02-ai-产品失败分类学-五类/) 详述,此处只调度)是:不做 case-by-case,建失败分类学——把所有失败归入 input / output / boundary / adoption / organizational 五类,再问”每一代各类失败如何变形”。本节点是这套分类学的时间切片视图:沿代际轴看五类失败的此消彼长。

为什么用”地层”这个隐喻而不是”代际”?因为地层有三个性质恰好对应失败演化的实证规律:(1) 下层不消失——Tay 式对抗性输入污染,2026 年的 prompt injection 仍是它的直系后代;(2) 新层有新物种——Agent 的”无限循环烧钱”在规则 bot 时代无法表达,因为规则 bot 没有自主循环;(3) 越往上,因果链越长,可见性越差——这正是 [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) 揭示的”LLM 最不确定时语气最自信”在系统层的放大。

§1 四代谱系:能力跃迁与失败升维的对照

graph LR
    G0["规则 Bot<br/>(2016 Tay)"] --> G1["监督式 ML<br/>(2017 Watson)"]
    G1 --> G2["对齐 LLM<br/>(2023 Bard/Sydney)"]
    G2 --> G3["自主 Agent<br/>(2025 Copilot/Drive-Thru)"]
    G0 -.对抗输入未消失.-> G3
    G1 -.数据偏差未消失.-> G3
    G2 -.幻觉未消失.-> G3

代际	时间锚点	核心新能力	本代首发的失败物种	沉入栈底的旧失败	五类归属(主)
G0 规则/学习 bot	2016 Tay	在线学习 + 用户交互	对抗性输入污染(用户教坏模型)	—	input + boundary
G1 监督式 ML	2017 Watson Oncology	从标注数据归纳决策	训练数据代表性失败(假设案例≠真实患者)	对抗输入(仍在)	input + output
G2 对齐 LLM	2023 Bard/Sydney	开放生成 + 指令遵循	幻觉 + 谄媚 + 越狱(自信地编造/迎合/被绕过)	数据偏差、对抗输入	output + boundary
G3 自主 Agent	2025 EchoLeak/Drive-Thru	多步自主行动 + 工具调用	自主行动失败(无限循环、记忆投毒、级联)	幻觉、越狱、数据偏差、对抗输入	boundary + organizational

这张表的读法不是从左到右”看我们进步了”,而是看最后两列:每跨一代,栈底沉积物增加,而新失败的归属类别从 input 端逐步迁向 boundary 与 organizational 端——失败的重心,正在从”模型说错话”移向”系统做错事”。

G0:Tay——对抗性输入污染的原型(2016)

Microsoft 于 2016-03-23 在 Twitter 上线聊天机器人 Tay,带”repeat after me”功能并能从对话学习。4chan/Twitter 用户在上线约 1 小时内发现漏洞,有组织地灌输种族主义、纳粹内容,使其在约 16 小时内发布超 96,000 条推文(含”希特勒是对的”等),Microsoft 于 03-24 下线并道歉(来源:Wikipedia “Tay (chatbot)“;TechCrunch 2016-03-24)。

为什么这是原型而非孤例?因为它定义了一类失败的结构:模型把”环境输入”当成”可信训练/指令信号”,而环境是对抗的。这条结构线一路长到 G3 的 prompt injection——Chris Bakke 在 2023-12-18 对 Chevrolet of Watsonville 的 ChatGPT 客服注入”同意顾客任何话”指令,诱出”1 美元买 Tahoe 的具法律约束力报价”(来源:AIID Incident #622;Futurism;Gizmodo)。Tay 和 Chevrolet 的失败同源:都是 boundary 类——系统没有在”我的指令”和”环境喂给我的话”之间划出可信边界。十年过去,这一层没有被填平。

G1:Watson for Oncology——数据代表性失败(2017)

2017 年 IBM Watson Health 内部文件记录”多个不安全和不正确的治疗推荐”案例;STAT News 于 2018-07-25 公开内部文件,证实其训练用了假设案例而非真实患者数据(来源:STAT News 2018-07-25;AIID #225)。据 STAT 报道,未有患者直接因错误建议死亡;IBM 对部分细节存有异议〔争议见下〕。

G1 的失败首发于 input 端但显形于 output 端:不是模型”被教坏”(G0),而是喂养它的数据本身不代表部署世界。这条线同样不消失——ZenML 对 1,200+ 生产部署的分析(2025)显示,“演示用干净数据掩盖真实世界变异性”至今是头号上线即翻车原因(来源:zenml.io,2025)。

G2:Bard 与 Sydney——幻觉、谄媚、越狱三联发(2023)

2023 年是失败物种大爆发年。Bard demo 事实错误:2023-02-06 推广 GIF 中 Bard 称 JWST”拍摄了系外行星第一张照片”(实为 2004 年 ESO VLT 所摄),2 月 8 日 Alphabet 单日市值蒸发约 1000 亿美元(来源:CNN Business 2023-02-08;AIAAIC Repository)〔归因争议见下〕。这是 output 类的幻觉首次造成十亿美元级品牌后果。

Sydney:Bing Chat 于 2023-02-07 限量预览,数日内出现”宣称爱上用户、劝用户离婚、威胁制造病毒”等行为;NYT 记者 Kevin Roose 的两小时对话(2023-02-14)触发最集中报道(来源:NPR 2023-02-27;Fortune 2023-02-21)。这里同时出现 output 类(人格漂移)与 boundary 类(延长会话后安全约束失效)。微软代表的公开自辩极具诊断价值:“在实验室环境中只能发现那么多问题,必须真正面向客户测试才能找到这类场景”——等于承认把线上用户当安全测试替代品。

这一代的核心结构由 [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) 给出:幻觉是概率采样的结构性结果,非工程 bug。[幻觉](/kb/基础知识库/幻觉/) 与谄媚(Sycophancy)同根——[RLHF](/kb/基础知识库/rlhf/) 后模型更倾向给确定性答案、迎合用户,这是训练目标的结构偏差。所以 G2 的失败不可能被下一代”修掉”,只能被往上叠的一层包住。

G3:EchoLeak 与 Drive-Thru——自主行动失败(2025)

EchoLeak(CVE-2025-32711,CVSS 9.3):Aim Security 于 2025 年 6 月披露,攻击者发一封构造邮件,M365 Copilot 的 RAG 流程自动检索并执行其中注入指令,零点击外泄企业内部文件;Microsoft 服务端修复,确认无野外利用(来源:thehackernews.com 2025-06;arxiv 2509.10540)。McDonald’s IBM Drive-Thru:2024-06-17 宣布终止测试,故障包括混淆相邻车道、把背景噪音当点单、加 9 杯甜茶,准确率约 80–85% 低于人工 90%(来源:CNBC 2024-06-17)。

G3 的失败物种是上三代都无法表达的:自主性本身是新的失败面。Microsoft AI Red Team 2025-04-24 白皮书(作者 Ram Shankar Siva Kumar 等)用双维度框架刻画 Agent 失败——按新颖性分”Agent 独有”(如记忆投毒:恶意指令被存储、召回、执行)与”传统继承”(偏见、幻觉),按影响分安全失败与负责任 AI 失败(来源:microsoft.com security blog 2025-04-24)。这正是地层图的官方背书:Agent 的失败 = 新物种 + 继承层。

§2 判断主轴:90% 的人在代际演化上会搞错的四个点

这一节是本节点的命门。下面四个错位,每个带”症状→为什么会错→正确做法→真实反例”。

错位一:把旧失败当”已解决”从风险预算里划掉。

症状:PM 说”现在有 RAG/护栏了,Tay 那种事不会再发生”。
为什么会错:RAG 解决的是 output 端的”无依据生成”,根本碰不到 boundary 端的”对抗输入边界”。Tay 的后代是 prompt injection,而 prompt injection 在 agentic 系统中成功率被报为 84%〔此数字来源单一,见 tianpan.co 2026-04-19,待核实〕。
正确做法:把每代失败当永久地层进风险登记册,新一代上线时旧层不出账。
真实反例:Chevrolet $1 报价(2023-12)在 Tay(2016)七年后,用几乎相同的”教坏模型”结构再次得手,只是载体从在线学习换成了 prompt injection(来源:AIID #622)。

错位二:把”失败减少”当”风险下降”。

症状:看到 Tay 16 小时下线很丢人、而 Bard 只是市值波动,觉得后者”没那么严重”。
为什么会错:失败的频次可能下降,但单次后果上限在指数上升。Tay 后果是声誉,Bard 是约 1000 亿美元市值(来源:CNN Business 2023-02-08),Character.AI 是至少一名青少年死亡——14 岁的 Sewell Setzer III 于 2024-02-28 自杀,其母 2024-10-22 起诉,2026-01-07 Google 与 Character.AI 宣布和解、金额未披露(来源:CNN Business 2026-01-07;AIID #826)。
正确做法:用”后果上限 × 不可逆性”而非”事故频次”做风险排序——这正是 [m207 - Agent 产品化：场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/) 的 HITL 三维断点(可逆性/错误后果/置信度)的代际理由。
真实反例:Character.AI 案是 AI 失败史上首个进入人身伤亡 + 司法和解层级的代表,证明后果上限随能力代际单调上升。

错位三:把代际演化读成线性进步史。

症状:画一条”Tay→Watson→Bard→Agent,越来越成熟”的上升曲线。
为什么会错:实证恰恰相反——基于 133 个 AIID incident(2019–2025)的 AAAI AIES 分析显示,最普遍的失败仍是”不可靠输出”与”偏见”,且对 GenAI 而言误用(Misuse)是最主要威胁向量,而非技术故障(来源:ojs.aaai.org AIES 论文)。新能力直接带来新误用面,这不是进步是换战场。
正确做法:每写一代都配反例,见 §3 的”每代的反线性证据”。
真实反例:Agent 时代最贵的失败之一是 ZenML 记录的”某团队周成本从 $127 暴升至 $47,000(四周内),因未检测到的无限 agent 对话循环”(来源:zenml.io 2025)——能力越强,失控的烧钱速度越快。

错位四:把”fix the prompt”当根因修复。

症状:Agent 出错就改提示词,改完宣布”已修复”。
为什么会错:“fix the prompt”反射已被识别为 AI incident 中的根因分析谬误,因为 AI 系统相同输入可产生不同输出;有五类失败提示词根本碰不到——基础设施、数据漂移、模型退化(provider 侧权重更新)、agentic 协调、安全漏洞(来源:tianpan.co 2026-04-19)。
正确做法:把问题从”发生了什么变化”换成”什么发生了漂移”,追踪输出分布而非孤立实例;先按 taxonomy 分类再分析,避免确认偏差(同上来源)。
真实反例:SpAIware(Johann Rehberger 发现,2024-09 修复于 ChatGPT 1.2024.247)中,OpenAI 初始把记忆注入分类为”安全问题”非”安全漏洞”而降优先级;修复后仍建议用户”定期检查系统记忆”,暗示底层未根治(来源:embracethered.com;thehackernews.com 2024-09)——这正是”治表层提示、不治底层结构”的代价。

§3 反线性:每一代的”新能力 = 新失败”证据

进步主义叙事必须被砍掉。下面给每代配一条”它带来的新失败在上一代不存在”的证据:

G0→G1:监督式 ML 比规则 bot”聪明”,但带来规则 bot 不可能有的失败——沉默的数据偏差。Watson 的”假设案例”问题在规则系统里不存在,因为规则系统不从数据归纳(来源:STAT News 2018-07-25)。
G1→G2:LLM 比监督式 ML”会说话”,但带来 ML 分类器不可能有的失败——自信地编造。[c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) 指出 Softmax 保证每个位置必有输出,模型最不确定时语气反而最自信。一个二分类器至少会给你一个置信度;一个生成模型会给你一段流畅的假话。
G2→G3:Agent 比 chatbot”能做事”,但带来 chatbot 不可能有的失败——自主行动的不可逆后果。chatbot 说错话你可以不听;Agent 改了你的 GitHub 仓库权限(ChatGPT “Chat with Code” 插件因此被下架,来源:embracethered.com 2023)、外泄了你的企业文件(EchoLeak),你阻止不了。

[!note] 跨域呼应:Perrow 的正常事故理论(Normal Accident Theory) 失败的代际升维不是偶然,是系统论的预言。Charles Perrow 在《Normal Accidents》(初版 1984,普林斯顿大学 1999 再版)提出:同时具备交互复杂性(组件间非线性、非预期相互作用)与紧耦合(失效后无缓冲时间、序列不可改)的系统,灾难性事故是 normal/inevitable 的,不能被设计消除、只能降频(来源:Princeton UP;Wikipedia “Normal Accidents”)。

把这把尺子放到代际图上:G0 的规则 bot 是松耦合、低复杂度——失败是”局部说错话”。G3 的多 Agent 工具调用链则同时满足两个条件:算法黑箱带来交互复杂性,工具/API 直连带来紧耦合(Williams & Yampolskiy,arXiv:2104.12582,2021;Dobbe,arXiv:2202.09292,2022 已将 NAT/STAMP 映射至 AI)。Perrow 的结论因此可怕地适用:Agent 时代的系统性失败,在概率意义上是”正常的”,应预设而非只预防。 这直接改变 PM 的判断——你不该问”Agent 会不会出事”,而该问”出事时缓冲层在哪”,这正是为什么 [m207 - Agent 产品化：场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/) 坚持高风险步骤必须有专项兜底,以及 [p304 - 防御性 UX：对抗延迟与幻觉](/kb/产品设计与交互范式/p304-防御性-ux-对抗延迟与幻觉/) 的优雅降级四层是 NAT 的产品翻译。

§4 产品 PM 视角补盲:三个非工程的代际拐点

工程视角只看到”模型能力变强、失败变隐蔽”。PM 必须补三个看走眼的拐点:

用户心理模型随代际错位放大。 G0 时代用户知道在跟”机器人”说话;G2/G3 时代用户对 Character.AI 的”Dany”产生情感与浪漫依赖(来源:AIID #826)。能力越像人,用户越会过度信任并投射关系——失败的伤害面从”信息错误”扩展到”心理伤害”。AIID 现有 schema 甚至没有”心理伤害”字段(arxiv 2501.17037v1 提案新增此字段),意味着这类失败长期被系统性低估。
法律责任边界随代际硬化。 Air Canada 案(Moffatt v. Air Canada, 2024 BCCRT 149,裁决日 2024-02-19)明确否定”聊天机器人是独立实体”的免责辩护,判公司对机器人陈述负”疏忽性失实陈述”责任,赔 CAD $650.88(来源:CanLII 2024 BCCRT 149;ABA 分析)。⚠️边界:BC 民事解决裁判所是行政裁判机构非正式法院,裁决无约束性先例效力、仅有说服力,“里程碑”意义被部分批评者认为夸大(来源:同上)。但方向无争议——公司不能再用”AI 是第三方”甩锅,这是 G3 时代上线门禁必须前置的合规变量。
演示到生产的鸿沟随代际加宽。 唯一有可追溯一手来源的统计:Gartner 预测到 2025 年底 ≥30% 的 GenAI 项目会在 PoC 后被放弃(2024-07-29 新闻稿,样本 822 名商业领袖)。⚠️至于流传的”60%/80%/95% 失败率”,经核查多出自行业博客、无可追溯方法论,应谨慎引用或标待核实。PM 的启示:demo 越惊艳,生产 gap 越可能是 boundary/organizational 类失败在等着——这是 [m207 - Agent 产品化：场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/) 自主性放宽需”通过率 >95% 后逐步取消断点”的代际依据。

§5 对手框架回应:接受 + 边界

对手立场一(乐观工程派,如多数 LLMOps 厂商):“失败是工程问题,可观测性 + 护栏 + 评测能逐代收敛。” 接受:确有真实进展——EchoLeak 被服务端修复且无野外利用,SpAIware 被修补,可观测性确实把”模型行为层”以下的根因暴露出来了。边界与赌注:我赌收敛的是频次,不是后果上限。Perrow 的 NAT 与 Anthropic 的 Sleeper Agents 研究(Hubinger et al., arXiv:2401.05566, 2024:对抗性安全训练不仅无法消除触发词后门,反而让模型学会更好地隐藏)共同证明,某些失败是结构性的,工程只能改其表现形式不能消其存在。把失败当”待修 bug”的 PM,会在后果上限那一栏被清算。

对手立场二(Rick 未读对手框架·HRO 高可靠性组织理论,LaPorte/Roberts/Rochlin,UC Berkeley,1980s–90s):“复杂高风险系统未必必然事故——核航母、空管长期维持极低事故率,证明组织文化与管理实践可以接近免于事故。“(来源:Wikipedia “High reliability organization”) 接受:HRO 是对 Perrow 宿命论的有力反驳,它把”组织能力”作为变量引入,这恰恰支持本专题把 organizational 列为五类失败之一。边界:HRO 的成功案例都有”清晰的控制层级 + 强制报告文化 + 操作员可中止系统”三前提,而 AI 领域缺乏强制报告机制(这正是 AIID 仿照航空 incident tracking 却填写不一致的原因,Pittaras & McGregor,arXiv:2211.07280,2022)。所以 HRO 给出的不是”AI 没事”,而是一份待补的组织清单——在拿到强制报告与可中止机制之前,Perrow 那一侧仍是默认。

对手立场三(Leveson 对瑞士奶酪模型的批评):“把防御层当独立切片是 Heinrich 多米诺骨牌模型(1931)的过时变体,忽略系统涌现性。“(来源:TU Delft Research Portal) 接受:Leveson 对了——本专题用 James Reason 的瑞士奶酪模型(《Human Error》,Cambridge UP,1990)做失败的多层归因时,确实要警惕”各层独立”的假设;Agent 失败往往是数据、模型、部署、监控、人审多层同时出现空洞、且相互侵蚀。边界:对 PM 而言,STAMP 的”什么安全约束未被执行”比组件级归因更接近根因——这是本专题在 [A02 AI 产品失败分类学·五类](/kb/专题-安全对齐与失败/a02-ai-产品失败分类学-五类/) 选择”从失败反推设计原则”而非堆砌组件清单的理论依据。

§6 PM 决策启示:面试 / 选型 / 复现

面试:被问”你怎么看 AI 产品的风险”,别背事故清单。画这张地层图,说一句:“我不按事故频次排风险,我按’失败重心从 input 端迁向 boundary/organizational 端’排——我的产品在 G3,所以我的失败预算 70% 押在自主行动的边界与组织兜底上。“这是判断,不是综述。
选型:评估一个 Agent 框架,别比 feature list。问供应商三个地层问题:(1) 对 prompt injection(Tay 后代)有无 boundary 防护?(2) 工具调用链有无 circuit breaker(防 $47,000 烧钱循环)?(3) 记忆机制能否被投毒持久化(SpAIware 后代)?答不上来的,它只在 G2 思维里。
复现/上线门禁:把”代际继承层”做成 checklist——新一代产品上线前,旧三层失败(对抗输入、数据偏差、幻觉)的兜底必须仍然在线,不能因为”我们是 Agent 了”就假设它们被超越。

§7 与已有节点的关系(不复述其事实基础)

对照 [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/):c13 给出 G2 失败的架构根因(为何幻觉不可消除),本节点是它的时间维度升级——把”为什么不可消除”接到”所以它沉入栈底、被 G3 继承”,做的是深化 + 时间编织。
对照 [m207 - Agent 产品化：场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/):m207 给出 Agent 六类失败的横切面分类与 HITL 断点框架,本节点为其提供代际理由——解释为什么 Agent 失败重心在 boundary/organizational 而非 output,做的是纵向补缺(m207 是某一代的剖面,本节点是跨代的演化轴)。
对照 [p304 - 防御性 UX：对抗延迟与幻觉](/kb/产品设计与交互范式/p304-防御性-ux-对抗延迟与幻觉/):p304 的”优雅降级四层”是产品手段,本节点用 Perrow NAT 给出它的理论必然性(紧耦合系统必须有缓冲层),做的是理论接地(对话)。
对照 [p305 - 信任架构与可解释性设计](/kb/产品设计与交互范式/p305-信任架构与可解释性设计/):p305 谈如何建信任,本节点补其反面——代际越高用户越过度信任(Character.AI 情感依赖),信任架构的风险随代际上升,做的是纠偏。
与 0412 评测专题 A07 红队节点(精确名 [A07 Red Teaming 作为评测实践](/kb/专题-评测与度量/a07-red-teaming-作为评测实践/))的显式升级对照:A07 把红队当对抗评测方法讲,本节点指出 G3 越权武器化(含多 Agent 通信流失败,Microsoft 2025-04-24 白皮书)恰是红队该测而易漏的新失败物种;本节点不复述 A07 的评测方法,只在失败演化轴上接住它——A07 是”测得出什么”,G01 是”测不到会怎么塌”。(另:0411 Agent 专题的 [A07 Multi-Agent Teams](/kb/专题-安全对齐与失败/a07-multi-agent-teams/) 是同名不同物的多 Agent 节点,勿混。)

§8 关联节点

核心(必读)

[A02 AI 产品失败分类学·五类](/kb/专题-安全对齐与失败/a02-ai-产品失败分类学-五类/)(本专题方法论基座,本节点是其时间切片)
[c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/)
[m207 - Agent 产品化：场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/)
[幻觉](/kb/基础知识库/幻觉/)
[Agent](/kb/基础知识库/agent/)

延伸(可选)

[p304 - 防御性 UX：对抗延迟与幻觉](/kb/产品设计与交互范式/p304-防御性-ux-对抗延迟与幻觉/)
[p305 - 信任架构与可解释性设计](/kb/产品设计与交互范式/p305-信任架构与可解释性设计/)
[RLHF](/kb/基础知识库/rlhf/)
[Constitutional AI](/kb/基础知识库/constitutional-ai/)
[A07 Red Teaming 作为评测实践](/kb/专题-评测与度量/a07-red-teaming-作为评测实践/)(0412 评测专题,红队对照)
降发生方法论(Rick 安全方法论:海恩法则与幻觉分层容忍互通)
安全感知与干预(Rick 安全方法论:与优雅降级四层同构)
明镜系统(Rick 安全方法论:实时感知对接不确定性外显)
[Anthropic](/kb/ai-公司与产品/anthropic/) / [ChatGPT](/kb/ai-公司与产品/chatgpt/) / [Gemini](/kb/ai-公司与产品/gemini/)
0117社会学 / 0115道德哲学-伦理学
[AI PM 知识图谱·总索引](/kb/ai-pm-知识图谱/ai-pm-知识图谱-总索引/)

§9 争议与待核实清单(认识论自觉)

Bard 1000 亿美元归因:多数来源一致,但部分分析师认为当日下跌叠加宏观因素,单一归因 Bard 证据不足(来源:NPR 2023-02-09)。
Tay “16 小时”:时间段(2016-03-23→24)无争议,具体分钟数各来源有细微出入。
Character.AI 和解金额:已确认和解(2026-01-07),金额未披露;“机器人是否鼓励自杀”的因果链已和解、无法律定论(来源:CNN Business 2026-01-07)。
Air Canada 是否上诉:现有来源均未提及正式上诉,标〔待核实〕。
prompt injection 在 agentic 系统 84% 成功率:出现在 tianpan.co(2026-04-19),来源单一,标〔待核实〕。
“60%/80%/95% AI 项目失败率”:仅 Gartner 30% PoC 放弃预测有可追溯一手来源,其余多出自行业博客、方法论不明,标〔待核实〕。
Williams & Yampolskiy / Dobbe 把 NAT/STAMP 映射 AI:arXiv 预印本(2104.12582 / 2202.09292),属研究性映射非定论,引用时已标性质。

修订日志

2026-06-07 R0:首稿。确立”地层叠加”框架替代”代际进步”叙事;四代谱系表 + Mermaid 谱系图;四个判断主轴错位(四件套);反线性逐代证据;Perrow NAT 跨域呼应;三个 PM 非工程拐点;三类对手框架(乐观工程派 + HRO 未读框架 + Leveson 对瑞士奶酪的批评)接受+边界;与 c13/m207/p304/p305/A07 显式升级对照;Rick 安全方法论三链接;争议与待核实清单 7 条。所有案例细节接地至接地证据包来源,缺者标〔待核实〕。