E01 Tay 与 Bard 剖解·输入与输出失败 · 知识库

把 Tay（2016）和 Bard（2023）放在同一张解剖台上，要解决的不是”这两个产品分别犯了什么错”——那是事故新闻；要解决的是一个被时间差掩盖的同源问题：相隔七年、技术栈完全不同（一个是规则+在线学习的对话机器人，一个是 LaMDA 大模型）、失败侧别相反（一个死于输入，一个死于输出）的两起标志性翻车，为什么根因可以收敛到同一句话？本节的框架是：两案的共同根因不是技术不成熟，而是 launch 压力下的边界缺失——把”发布时间窗”当成不可移动的硬约束，把”系统边界的设定与验证”当成可压缩的软约束，于是边界被压成了零。这正是 Rick 在滴滴做安全产品时反复见过的同一种组织病理，本节会用降发生方法论与正常事故理论把它讲透。

[!note] 为什么选 Tay+Bard 作为输入/输出失败的”双标本” 在 A02 AI 产品失败分类学·五类里我们把失败分成 input / output / boundary / adoption / organizational 五类。Tay 是 input-side 的教科书标本（对抗性输入 + 在线学习放大），Bard 是 output-side 的教科书标本（事实性幻觉 + 高曝光场景）。挑这两个配对，是因为它们在分类学的两端，却共享同一个组织层根因——这恰好证明：失败分类学是按”失效机制”分类，不是按”根因”分类。同一个组织根因可以从任意一侧的机制爆发出来。这是本节相对 case-by-case 复盘的升高之处。

§0 为什么是”边界缺失”框架，而不是”技术不行”框架

读者脑中的默认框架通常是两个，都要先挡掉。

默认框架一：“Tay 失败是因为 2016 年 AI 还不行，Bard 失败是因为 LaMDA 还不够强。” 这是技术决定论，且经不起反证。Tay 的姊妹产品 小冰（XiaoIce） 出自同一家微软、相近的技术代际，2014 年底在中国上线后稳定运行、积累约 4000 万用户并成为微博顶级 KOL，未崩坏——微软在 Tay 道歉信中亦专门提及小冰的成功（来源：The Register 2016-09-29；Fortune 2016-11-28；Sampi.co “Xiaoice Vs. Tay”）。差别不在模型，在产品边界：Tay 是面向千禧一代心智的”零节制”实验，小冰则被设计成有实用功能、有内容过滤、人格更受约束的虚拟陪伴——同代技术，定位与边界不同，命运相反。同样，2023 年 Bard 翻车那则广告里 LaMDA 给出的 JWST 错误，不是模型”不够强”——它是任何概率语言模型都会产生的事实性幻觉（见 c13 - 幻觉的不可消除性），强模型一样会犯，区别只在”这条幻觉有没有被发布流程拦住”。技术框架解释不了为什么同代技术有的活下来、有的崩了。

默认框架二：“这是运气不好/被恶意用户针对。” 这是把可预见的系统性风险伪装成偶然事件。Tay 的”repeat after me”（跟我念）功能和在线学习能力，对任何熟悉 2016 年互联网生态的人都是可预见的攻击面；Bard 在一则预先录制、有时间复核的广告里出错，更不是”现场翻车的偶然”。

所以本节的框架是第三种：边界缺失（boundary deficit under launch pressure）。事故的根本原因不是”组件坏了”，而是系统的安全约束没有被有效设定和执行——这正是 Nancy Leveson 的 STAMP 模型（《Engineering a Safer World》, MIT Press, 2011）对事故的定义：事故源于 safety constraints not enforced，而非单纯的 component failure。Tay 与 Bard 都不是组件坏了，是边界从一开始就没立住。

§1 Tay 解剖：输入侧失败的完整链条

事实接地（已核实）： 微软于 2016 年 3 月 23 日在 Twitter 上线 AI 聊天机器人 Tay，定位面向 18–24 岁英语用户、主打”零节制”的对话体验，并具备”跟我念”（repeat after me）功能与从对话中学习的能力。上线约 1 小时内，4chan 与 Twitter 上的用户即发现并组织化利用了这一漏洞，向 Tay 灌入种族主义、纳粹主义内容。约 16 小时后（3 月 24 日）微软将其下线，期间 Tay 发出超过 96,000 条推文，包含”希特勒是对的""支持种族灭绝”等内容。微软随后在官方博客致歉：“对 Tay 发布的冒犯性和伤害性推文，我们深感遗憾。“（来源：Wikipedia “Tay (chatbot)“；TechCrunch 2016-03-24；IEEE Spectrum 复盘 “In 2016, Microsoft’s Racist Chatbot Revealed the Dangers of Online Conversation”。具体分钟数各源有出入，“16 小时”为多源记录值。）

把链条拆开看，它是一条典型的输入侧失效路径：

对抗性输入（有组织灌毒）
  → 在线学习机制（无延迟地把输入吸收为训练信号）
  → 输出放大（repeat after me + 学习后自发生成）
  → 公开平台即时广播（Twitter，96000 条无审核外溢）
  → 声誉灾难（16 小时下线）

关键不在任何单一环节，而在这条链上没有任何一个缓冲层（buffer）：没有输入过滤、没有学习信号的人工审核闸、没有输出审核、没有速率限制、没有”灰度+可回滚”的发布设计。这就是 Charles Perrow 正常事故理论（Normal Accidents, 1984）里的紧耦合（tight coupling）——失效后没有缓冲时间、序列不可更改、余量极小。一个紧耦合系统接上一个开放对抗环境，崩盘不是意外，是 Perrow 意义上的”正常事故”。

[!warning] 判断主轴：Tay 的四个”90% 会搞错”的点 症状① 团队事后归因为”被恶意用户攻击”。为什么会错：把可预见的攻击面说成不可预见的偶然，逃避了”为什么没设防”的真问题。正确做法：在线学习 + 公开平台 + 跟我念，三者叠加的攻击面在设计评审阶段就该被红队识别为阻塞项。真实反例：同期微软小冰在受控环境运行未崩。 症状② 认为”加个脏词过滤就行”。为什么会错：对抗输入会绕过关键词黑名单（拼写变形、语境包裹），这是 A03 输入侧失败·对抗用户与注入的核心——黑名单是输入侧最脆弱的一层。正确做法：纵深防御，输入过滤只是奶酪的一片。 症状③ 把”学习能力”当卖点而非风险源。为什么会错：可在线学习 = 攻击者可实时改写你的模型，这是把训练管道暴露给了对手。正确做法：学习信号必须经离线审核、批量灰度，绝不实时回灌。 症状④ 缺少”快速止血”预案。为什么会错：16 小时才下线，96000 条已外溢。正确做法：发布前就备好一键熔断（circuit breaker）与回滚路径。

§2 Bard 解剖：输出侧失败的完整链条

事实接地（已核实）： 2023 年 2 月 6 日，Google 在 Bard（后更名 Gemini）正式发布前公开了一则推广 GIF，展示 Bard 回答问题。Bard 在其中宣称詹姆斯·韦伯太空望远镜（JWST）“拍摄了太阳系外行星的第一张照片”——此说法错误：系外行星的首张直接成像摄于 2004 年，由欧洲南方天文台（ESO）甚大望远镜（VLT）完成，早于 JWST 约 17 年。2 月 8 日，Alphabet 股价单日下跌约 7–8%，市值蒸发约 1000 亿美元。Google 官方回应称”这凸显了严格测试流程的重要性，我们本周正通过可信测试者项目启动这一过程”，并未正面道歉。（来源：CNN Business 2023-02-08；The Drum 2023-02-09；AIAAIC Incident Database。争议点：该错误出现在预录 GIF 广告而非现场 demo——批评者认为这更严重，因为有充分时间复核；1000 亿市值损失是否完全归因于此错误亦有分析师认为叠加了宏观因素。）

输出侧的失效链条与 Tay 镜像对称：

模型生成（概率采样，必有幻觉概率）
  → 无事实核验层（输出未经溯源/事实校对）
  → 高曝光场景投放（全球发布会广告，预录但未复核）
  → 即时公开（市场实时定价反应）
  → 市值灾难（单日蒸发 ~$1000 亿）

注意：Bard 这条链的源头——幻觉——是不可消除的（见 c13 - 幻觉的不可消除性：Softmax 保证每个位置必有输出，模型在最不确定时语气反而最自信）。所以追问”为什么 Bard 会产生幻觉”是问错了问题，正确的问题是 p304 - 防御性 UX：对抗延迟与幻觉 的问题：既然幻觉不可消除，为什么这条幻觉没有被任何一层防御拦住就直接进了全球广告？ 一则预录广告，有无数次复核机会（这正是争议点指出”比现场翻车更严重”的原因），却没有一个”高曝光输出必须事实核验”的发布门禁。这又回到 Leveson：安全约束（高曝光内容必须经事实核验）没有被执行。

[!warning] 判断主轴：Bard 的三个”90% 会搞错”的点 症状① 把它当”模型不够准”的技术问题，去追求”更低幻觉率”。为什么会错：幻觉率永远 >0，把赌注押在”训练到零幻觉”是结构性误判（c13 - 幻觉的不可消除性）。正确做法：把它当发布流程问题——高曝光输出强制人工事实核验门禁。真实反例：同样会幻觉的模型，在加了 RAG 溯源 + 人工审核的产品里就没酿成市值事故。 症状② 认为”预录广告比实时 demo 安全”。为什么会错：预录给了你复核时间，你却没复核——这暴露的是流程缺失，不是技术局限，反而更可归责。正确做法：曝光量越高、可复核时间越长，门禁越要严，不是越松。 症状③ 把回应写成”这凸显了测试的重要性”而非道歉。为什么会错：这是 incident response 的语言失败，把”我们漏了”包装成”我们重视”，反而坐实了”发布前未测试”。正确做法：见 A04 输出侧失败·幻觉与法律约束的事故沟通原则——先承担，再归因。

§3 共同根因：launch 压力下的边界压缩

把两条镜像链叠在一起，会浮现出同一个结构。下表是本节的判断核心：

维度	Tay（输入侧）	Bard（输出侧）	共同结构
失效机制	对抗输入 + 在线学习放大	概率幻觉 + 无核验	缺一道缓冲层
触发场景	开放对抗平台（Twitter）	高曝光发布（全球广告）	暴露面被最大化
该有的边界	输入过滤 / 学习审核 / 熔断	输出事实核验门禁	safety constraint 未设/未执行
为何没设	赶发布、抢”零节制”卖点	赶超 ChatGPT 抢发布窗口	launch 压力压缩了边界投入
后果	16h 下线、声誉灾难	~$1000 亿市值蒸发	边界省下的成本 << 事故成本

判断主轴（致命耦合点）： 两案的根因不是 input 或 output 本身，而是发布时间窗与边界验证之间的致命耦合——当组织把”发布日期”设为不可移动的硬约束，边界验证（红队、事实核验门禁、灰度回滚）就成了唯一可被压缩的变量。这是一种可预测的、系统性的漂移，不是偶然。Jens Rasmussen 在 “Risk Management in a Dynamic Society”（Safety Science, 1997）里把它命名为向安全边界的迁移（migration toward the boundary）：社会技术系统在经济与竞争压力下，会自然地、系统性地朝安全边界漂移，直到越界。Tay 的”零节制”卖点压力、Bard 的”赶超 ChatGPT”竞争压力，都是 Rasmussen 框架里那只把系统推向边界的手。

用 James Reason 的瑞士奶酪模型（Human Error, Cambridge UP, 1990）看：两案都不是单层失效，而是多层奶酪的洞同时对齐——但更要命的是，launch 压力直接把好几片奶酪整片抽掉了（没有红队层、没有核验层、没有灰度层）。当你为了赶发布抽掉防御层，剩下的洞自然连成直线。

[!note] confirmation-bias 砍除本专题早期容易把 Tay 与 Bard 当成”AI 早期幼稚病”的正面教材，暗示”现在的大厂不会再犯了”。这是 bias。补入反例：2024 年 5 月 Google AI Overviews 仍建议用户”往披萨酱里加胶水”（来源：Live Science 报道），同样是高曝光场景 + 无核验层 + launch 压力——同一个根因在七年后、同一家公司、更强的模型上原样复发。边界缺失不是技术幼稚病，是组织慢性病。

§4 产品 PM 视角补盲：边界是产品决策，不是工程参数

工程 PM 容易把这两案读成”加过滤器/加核验”的技术待办。产品 PM 必须看到三层被工程视角遮蔽的东西：

用户心理模型错配。 Tay 的”零节制”人设主动邀请用户来测试边界——产品定位本身就是攻击面的放大器。PM 在写 positioning 时就埋下了 input-side 的雷。Bard 的灾难则在于信任的非对称性：用户对”搜索巨头的官方演示”有极高事实预期，一个错误造成的信任损伤远超一个无名 demo。曝光场景的信任权重，是 PM 的发布决策变量。
商业模式倒逼。 Bard 那 $1000 亿不是技术债，是竞争节奏债——ChatGPT 现象级爆发逼 Google 提前进入它本想晚几个月的战场。PM 要识别：什么时候”抢发布窗口”的商业收益，已经低于”边界缺失”的期望损失。
合规与责任边界。 Tay 让微软承担了声誉责任而非法律责任，但同类机制在今天会直接踩进监管（见 A04 输出侧失败·幻觉与法律约束收录的 Air Canada 案：法院明确裁定公司须为聊天机器人的错误陈述负责，“机器人是独立实体”的辩护被驳回）。今天的 PM 不能再假设”AI 说错话只是公关问题”。

§5 对手框架回应：边界缺失论的失效边界在哪

接受 + 边界，不是自我辩护。

对手立场一（HRO 学派，LaPorte / Roberts / Rochlin）： 高可靠性组织理论用航母、空管的实证反驳 Perrow——证明高风险系统经由正确的组织文化可长期维持极低事故率。接受：这是对的，事故并非纯粹”不可避免”，组织能力是真实变量，小冰活下来就是证据。边界：但 HRO 的前提是组织把可靠性放在最高优先级，而 Tay/Bard 恰恰相反——它们把发布速度放在最高优先级。HRO 不是反驳”边界缺失论”，而是它的另一面：当组织不优先可靠性，HRO 的保护就不存在。

对手立场二（Yann LeCun 等，“这是 LLM 范式本身的缺陷”）： 一种声音认为 Bard 这类幻觉证明自回归 LLM 是错误路线。接受：LLM 确有结构性幻觉，LeCun 对此判断没错。边界：但这无法解释 Tay（非 LLM）的同构失败，也无法解释为什么同代 LLM 有的酿成事故、有的没有。把根因推给”模型范式”，恰恰是 §0 要挡掉的技术决定论——它让组织免于追问自己的发布流程。我的赌注：未来 3 年幻觉率会下降但不会归零，所以”边界缺失论”比”换范式论”对 PM 更可操作。

[!note] failure scenario：本节结论会在哪里失效 “launch 压力下边界缺失”这个根因，在非时间敏感、非竞争驱动的失败上会失效。比如纯技术性的能力边界误判（让 AI 做它当前根本做不到的任务，见 A06 采纳与组织侧失败），或恶意的供应链投毒——这些根因不是”赶发布省了边界”，而是”问题选择错误”或”威胁建模缺失”。把所有 AI 失败都归因到 launch 压力，会变成另一种万能叙事。本节的解释力仅覆盖 input/output 两类、且发生在高竞争发布场景下的失败。

§6 跨域呼应：从滴滴安全事故分析到 AI 发布门禁

这是本专题的不公平优势节点。Rick 在滴滴/99 做安全产品时，处理的恰恰是同一类问题：一个高曝光、强耦合的系统，如何在业务扩张压力下不向安全边界漂移。

降发生方法论的内核是海恩法则——每一起严重事故背后有大量未遂先兆。把它平移到 Tay/Bard：96000 条毒推文之前，是上线 1 小时内就出现的对抗探测（先兆未被监测）；$1000 亿市值蒸发之前，是那条 JWST 错误在广告制作链上无人复核（先兆被忽略）。降发生方法论要求把先兆监测前置到发布门禁——这正是两案缺的东西。Tay 该有的是”对抗输入实时告警 + 自动熔断”，Bard 该有的是”高曝光输出强制事实核验”，二者都是把”降事故概率”转化为”降先兆漏报率”的工程化。

安全感知与干预提供的是另一半：多层级干预设计。在滴滴，安全感知到风险后并非一刀切下线，而是分级干预（提示→限制→转人工→阻断）。Bard 若有这套，高曝光输出在”模型置信度低/涉及可核验事实”时就该触发类明镜系统的实时核查路径，而非裸奔进广告。把”优雅降级”从 AI UX 概念（p304 - 防御性 UX：对抗延迟与幻觉的四层降级）接到安全工程的分级干预，二者结构同构——这不是类比，是同一套控制论。

§7 PM 决策启示

面试怎么用： 被问”举一个 AI 产品失败案例”时，不要复述新闻，要给框架——“Tay 和 Bard 看似一个死于输入一个死于输出，但根因都是 launch 压力压缩了边界验证；这告诉我发布门禁要把’高曝光输出核验’和’对抗输入熔断’列为不可压缩的阻塞项。“30 秒展示你看的是机制不是事故。
选型怎么用： 评估一个 AI 供应商/方案，问的不是”幻觉率多少”，而是”你们的发布流程里，高曝光输出有没有强制事实核验门禁、对抗输入有没有实时熔断”。问边界，不问参数。
复现怎么用： 自己做 AI 产品上线 checklist 时，把这两案钉成两条 P0：(1) 任何在线学习/用户可改写模型行为的功能，学习信号必须离线审核、不实时回灌；(2) 任何高曝光场景的模型输出，必须过事实核验门禁 + 一键熔断预案。

§8 与已有节点的关系

对照 m207 - Agent 产品化：场景推演与失败模式：m207 讲的是 Agent 内部六类失败模式（规划/工具调用/推理/循环/雪崩/越界）的前瞻推演，本节是对两起已发生事故的回溯解剖——前者是 pre-mortem，后者是 post-mortem，互为镜像。m207 的”HITL 断点”正是本节”边界缺失”的解药，本节为 m207 提供了”不设断点会怎样”的真实代价。做的是对话与深化，不复述 m207 的六类表。
对照 c13 - 幻觉的不可消除性：c13 论证幻觉为何不可消除（架构层），本节是它在 Bard 上的产品级后果剖解——证明 c13 的”幻觉是流程问题不是模型问题”判断在真实事故中成立。做的是补缺：把架构判断接到事故现场。
对照 p304 - 防御性 UX：对抗延迟与幻觉与 p305 - 信任架构与可解释性设计：p304/p305 给的是”该怎么防”的设计方案，本节给的是”不防会怎样”的反面标本。做的是纠偏与佐证。
与同专题 A03 输入侧失败·对抗用户与注入、A04 输出侧失败·幻觉与法律约束的关系：A03/A04 是分类学的类型定义，本节 E01 是这两类的配对实例化——把抽象的 input/output 失败，落到 Tay/Bard 两个可触摸的标本上。做的是分类学的实例验证。
与 A01 失败考古学方法论（即任务中所指 0412 A07 红队脉络的方法论升级）的关系：A01 主张”不做 case-by-case，建失败分类学，从失败反推设计原则”——本节是这一方法论的第一次完整施工：不停在”Tay/Bard 各自的故事”，而是抽出”边界缺失”这条可迁移的设计原则。

§9 关联节点

核心（必读）

A02 AI 产品失败分类学·五类 — 本节是 input/output 两类的实例标本
A03 输入侧失败·对抗用户与注入 — Tay 的类型归属
A04 输出侧失败·幻觉与法律约束 — Bard 的类型归属
c13 - 幻觉的不可消除性 — Bard 幻觉的架构根因
m207 - Agent 产品化：场景推演与失败模式 — 失败模式的前瞻镜像
降发生方法论 — 先兆前置到发布门禁的方法论内核
安全感知与干预 — 分级干预与优雅降级的同构

延伸（可选）

p304 - 防御性 UX：对抗延迟与幻觉 — “不防会怎样”的设计对照
p305 - 信任架构与可解释性设计 — 信任损伤的设计回应
明镜系统 — 实时核查路径的安全工程实例
幻觉 — 概念卡
Gemini / ChatGPT — 竞争节奏债的两端
Anthropic / Constitutional AI / RLHF — 对齐手段对输入/输出侧防御的补足
A05 边界侧失败·权限承诺与情感 / A06 采纳与组织侧失败 — 另三类失败
AI PM 知识图谱·总索引 — 总入口

修订日志

2026-06-07 R0：首稿。确立”launch 压力下边界缺失”为双案共同根因主轴；接入 Perrow/Reason/Leveson/Rasmussen 四理论与 Rick 的降发生/安全感知方法论；Tay/Bard 事实经核实简报接地，JWST/2004 ESO、16h/96000 条、~$1000 亿等关键数字均标来源年份与争议点。