E01 Tay 与 Bard 剖解·输入与输出失败
把 Tay(2016)和 Bard(2023)放在同一张解剖台上,要解决的不是”这两个产品分别犯了什么错”——那是事故新闻;要解决的是一个被时间差掩盖的同源问题:相隔七年、技术栈完全不同(一个是规则+在线学习的对话机器人,一个是 LaMDA 大模型)、失败侧别相反(一个死于输入,一个死于输出)的两起标志性翻车,为什么根因可以收敛到同一句话?本节的框架是:两案的共同根因不是技术不成熟,而是 launch 压力下的边界缺失——把”发布时间窗”当成不可移动的硬约束,把”系统边界的设定与验证”当成可压缩的软约束,于是边界被压成了零。这正是 Rick 在滴滴做安全产品时反复见过的同一种组织病理,本节会用 降发生方法论 与正常事故理论把它讲透。
[!note] 为什么选 Tay+Bard 作为输入/输出失败的”双标本” 在 A02 AI 产品失败分类学·五类 里我们把失败分成 input / output / boundary / adoption / organizational 五类。Tay 是 input-side 的教科书标本(对抗性输入 + 在线学习放大),Bard 是 output-side 的教科书标本(事实性幻觉 + 高曝光场景)。挑这两个配对,是因为它们在分类学的两端,却共享同一个组织层根因——这恰好证明:失败分类学是按”失效机制”分类,不是按”根因”分类。同一个组织根因可以从任意一侧的机制爆发出来。这是本节相对 case-by-case 复盘的升高之处。
§0 为什么是”边界缺失”框架,而不是”技术不行”框架
读者脑中的默认框架通常是两个,都要先挡掉。
默认框架一:“Tay 失败是因为 2016 年 AI 还不行,Bard 失败是因为 LaMDA 还不够强。” 这是技术决定论,且经不起反证。Tay 的姊妹产品 小冰(XiaoIce) 出自同一家微软、相近的技术代际,2014 年底在中国上线后稳定运行、积累约 4000 万用户并成为微博顶级 KOL,未崩坏——微软在 Tay 道歉信中亦专门提及小冰的成功(来源:The Register 2016-09-29;Fortune 2016-11-28;Sampi.co “Xiaoice Vs. Tay”)。差别不在模型,在产品边界:Tay 是面向千禧一代心智的”零节制”实验,小冰则被设计成有实用功能、有内容过滤、人格更受约束的虚拟陪伴——同代技术,定位与边界不同,命运相反。同样,2023 年 Bard 翻车那则广告里 LaMDA 给出的 JWST 错误,不是模型”不够强”——它是任何概率语言模型都会产生的事实性幻觉(见 c13 - 幻觉的不可消除性),强模型一样会犯,区别只在”这条幻觉有没有被发布流程拦住”。技术框架解释不了为什么同代技术有的活下来、有的崩了。
默认框架二:“这是运气不好/被恶意用户针对。” 这是把可预见的系统性风险伪装成偶然事件。Tay 的”repeat after me”(跟我念)功能和在线学习能力,对任何熟悉 2016 年互联网生态的人都是可预见的攻击面;Bard 在一则预先录制、有时间复核的广告里出错,更不是”现场翻车的偶然”。
所以本节的框架是第三种:边界缺失(boundary deficit under launch pressure)。事故的根本原因不是”组件坏了”,而是系统的安全约束没有被有效设定和执行——这正是 Nancy Leveson 的 STAMP 模型(《Engineering a Safer World》, MIT Press, 2011)对事故的定义:事故源于 safety constraints not enforced,而非单纯的 component failure。Tay 与 Bard 都不是组件坏了,是边界从一开始就没立住。
§1 Tay 解剖:输入侧失败的完整链条
事实接地(已核实): 微软于 2016 年 3 月 23 日在 Twitter 上线 AI 聊天机器人 Tay,定位面向 18–24 岁英语用户、主打”零节制”的对话体验,并具备”跟我念”(repeat after me)功能与从对话中学习的能力。上线约 1 小时内,4chan 与 Twitter 上的用户即发现并组织化利用了这一漏洞,向 Tay 灌入种族主义、纳粹主义内容。约 16 小时后(3 月 24 日)微软将其下线,期间 Tay 发出超过 96,000 条推文,包含”希特勒是对的""支持种族灭绝”等内容。微软随后在官方博客致歉:“对 Tay 发布的冒犯性和伤害性推文,我们深感遗憾。“(来源:Wikipedia “Tay (chatbot)“;TechCrunch 2016-03-24;IEEE Spectrum 复盘 “In 2016, Microsoft’s Racist Chatbot Revealed the Dangers of Online Conversation”。具体分钟数各源有出入,“16 小时”为多源记录值。)
把链条拆开看,它是一条典型的输入侧失效路径:
对抗性输入(有组织灌毒)
→ 在线学习机制(无延迟地把输入吸收为训练信号)
→ 输出放大(repeat after me + 学习后自发生成)
→ 公开平台即时广播(Twitter,96000 条无审核外溢)
→ 声誉灾难(16 小时下线)
关键不在任何单一环节,而在这条链上没有任何一个缓冲层(buffer):没有输入过滤、没有学习信号的人工审核闸、没有输出审核、没有速率限制、没有”灰度+可回滚”的发布设计。这就是 Charles Perrow 正常事故理论(Normal Accidents, 1984)里的紧耦合(tight coupling)——失效后没有缓冲时间、序列不可更改、余量极小。一个紧耦合系统接上一个开放对抗环境,崩盘不是意外,是 Perrow 意义上的”正常事故”。
[!warning] 判断主轴:Tay 的四个”90% 会搞错”的点 症状① 团队事后归因为”被恶意用户攻击”。为什么会错:把可预见的攻击面说成不可预见的偶然,逃避了”为什么没设防”的真问题。正确做法:在线学习 + 公开平台 + 跟我念,三者叠加的攻击面在设计评审阶段就该被红队识别为阻塞项。真实反例:同期微软小冰在受控环境运行未崩。 症状② 认为”加个脏词过滤就行”。为什么会错:对抗输入会绕过关键词黑名单(拼写变形、语境包裹),这是 A03 输入侧失败·对抗用户与注入 的核心——黑名单是输入侧最脆弱的一层。正确做法:纵深防御,输入过滤只是奶酪的一片。 症状③ 把”学习能力”当卖点而非风险源。为什么会错:可在线学习 = 攻击者可实时改写你的模型,这是把训练管道暴露给了对手。正确做法:学习信号必须经离线审核、批量灰度,绝不实时回灌。 症状④ 缺少”快速止血”预案。为什么会错:16 小时才下线,96000 条已外溢。正确做法:发布前就备好一键熔断(circuit breaker)与回滚路径。
§2 Bard 解剖:输出侧失败的完整链条
事实接地(已核实): 2023 年 2 月 6 日,Google 在 Bard(后更名 Gemini)正式发布前公开了一则推广 GIF,展示 Bard 回答问题。Bard 在其中宣称詹姆斯·韦伯太空望远镜(JWST)“拍摄了太阳系外行星的第一张照片”——此说法错误:系外行星的首张直接成像摄于 2004 年,由欧洲南方天文台(ESO)甚大望远镜(VLT)完成,早于 JWST 约 17 年。2 月 8 日,Alphabet 股价单日下跌约 7–8%,市值蒸发约 1000 亿美元。Google 官方回应称”这凸显了严格测试流程的重要性,我们本周正通过可信测试者项目启动这一过程”,并未正面道歉。(来源:CNN Business 2023-02-08;The Drum 2023-02-09;AIAAIC Incident Database。争议点:该错误出现在预录 GIF 广告而非现场 demo——批评者认为这更严重,因为有充分时间复核;1000 亿市值损失是否完全归因于此错误亦有分析师认为叠加了宏观因素。)
输出侧的失效链条与 Tay 镜像对称:
模型生成(概率采样,必有幻觉概率)
→ 无事实核验层(输出未经溯源/事实校对)
→ 高曝光场景投放(全球发布会广告,预录但未复核)
→ 即时公开(市场实时定价反应)
→ 市值灾难(单日蒸发 ~$1000 亿)
注意:Bard 这条链的源头——幻觉——是不可消除的(见 c13 - 幻觉的不可消除性:Softmax 保证每个位置必有输出,模型在最不确定时语气反而最自信)。所以追问”为什么 Bard 会产生幻觉”是问错了问题,正确的问题是 p304 - 防御性 UX:对抗延迟与幻觉 的问题:既然幻觉不可消除,为什么这条幻觉没有被任何一层防御拦住就直接进了全球广告? 一则预录广告,有无数次复核机会(这正是争议点指出”比现场翻车更严重”的原因),却没有一个”高曝光输出必须事实核验”的发布门禁。这又回到 Leveson:安全约束(高曝光内容必须经事实核验)没有被执行。
[!warning] 判断主轴:Bard 的三个”90% 会搞错”的点 症状① 把它当”模型不够准”的技术问题,去追求”更低幻觉率”。为什么会错:幻觉率永远 >0,把赌注押在”训练到零幻觉”是结构性误判(c13 - 幻觉的不可消除性)。正确做法:把它当发布流程问题——高曝光输出强制人工事实核验门禁。真实反例:同样会幻觉的模型,在加了 RAG 溯源 + 人工审核的产品里就没酿成市值事故。 症状② 认为”预录广告比实时 demo 安全”。为什么会错:预录给了你复核时间,你却没复核——这暴露的是流程缺失,不是技术局限,反而更可归责。正确做法:曝光量越高、可复核时间越长,门禁越要严,不是越松。 症状③ 把回应写成”这凸显了测试的重要性”而非道歉。为什么会错:这是 incident response 的语言失败,把”我们漏了”包装成”我们重视”,反而坐实了”发布前未测试”。正确做法:见 A04 输出侧失败·幻觉与法律约束 的事故沟通原则——先承担,再归因。
§3 共同根因:launch 压力下的边界压缩
把两条镜像链叠在一起,会浮现出同一个结构。下表是本节的判断核心:
| 维度 | Tay(输入侧) | Bard(输出侧) | 共同结构 |
|---|---|---|---|
| 失效机制 | 对抗输入 + 在线学习放大 | 概率幻觉 + 无核验 | 缺一道缓冲层 |
| 触发场景 | 开放对抗平台(Twitter) | 高曝光发布(全球广告) | 暴露面被最大化 |
| 该有的边界 | 输入过滤 / 学习审核 / 熔断 | 输出事实核验门禁 | safety constraint 未设/未执行 |
| 为何没设 | 赶发布、抢”零节制”卖点 | 赶超 ChatGPT 抢发布窗口 | launch 压力压缩了边界投入 |
| 后果 | 16h 下线、声誉灾难 | ~$1000 亿市值蒸发 | 边界省下的成本 << 事故成本 |
判断主轴(致命耦合点): 两案的根因不是 input 或 output 本身,而是发布时间窗与边界验证之间的致命耦合——当组织把”发布日期”设为不可移动的硬约束,边界验证(红队、事实核验门禁、灰度回滚)就成了唯一可被压缩的变量。这是一种可预测的、系统性的漂移,不是偶然。Jens Rasmussen 在 “Risk Management in a Dynamic Society”(Safety Science, 1997)里把它命名为向安全边界的迁移(migration toward the boundary):社会技术系统在经济与竞争压力下,会自然地、系统性地朝安全边界漂移,直到越界。Tay 的”零节制”卖点压力、Bard 的”赶超 ChatGPT”竞争压力,都是 Rasmussen 框架里那只把系统推向边界的手。
用 James Reason 的瑞士奶酪模型(Human Error, Cambridge UP, 1990)看:两案都不是单层失效,而是多层奶酪的洞同时对齐——但更要命的是,launch 压力直接把好几片奶酪整片抽掉了(没有红队层、没有核验层、没有灰度层)。当你为了赶发布抽掉防御层,剩下的洞自然连成直线。
[!note] confirmation-bias 砍除 本专题早期容易把 Tay 与 Bard 当成”AI 早期幼稚病”的正面教材,暗示”现在的大厂不会再犯了”。这是 bias。补入反例:2024 年 5 月 Google AI Overviews 仍建议用户”往披萨酱里加胶水”(来源:Live Science 报道),同样是高曝光场景 + 无核验层 + launch 压力——同一个根因在七年后、同一家公司、更强的模型上原样复发。边界缺失不是技术幼稚病,是组织慢性病。
§4 产品 PM 视角补盲:边界是产品决策,不是工程参数
工程 PM 容易把这两案读成”加过滤器/加核验”的技术待办。产品 PM 必须看到三层被工程视角遮蔽的东西:
- 用户心理模型错配。 Tay 的”零节制”人设主动邀请用户来测试边界——产品定位本身就是攻击面的放大器。PM 在写 positioning 时就埋下了 input-side 的雷。Bard 的灾难则在于信任的非对称性:用户对”搜索巨头的官方演示”有极高事实预期,一个错误造成的信任损伤远超一个无名 demo。曝光场景的信任权重,是 PM 的发布决策变量。
- 商业模式倒逼。 Bard 那 $1000 亿不是技术债,是竞争节奏债——ChatGPT 现象级爆发逼 Google 提前进入它本想晚几个月的战场。PM 要识别:什么时候”抢发布窗口”的商业收益,已经低于”边界缺失”的期望损失。
- 合规与责任边界。 Tay 让微软承担了声誉责任而非法律责任,但同类机制在今天会直接踩进监管(见 A04 输出侧失败·幻觉与法律约束 收录的 Air Canada 案:法院明确裁定公司须为聊天机器人的错误陈述负责,“机器人是独立实体”的辩护被驳回)。今天的 PM 不能再假设”AI 说错话只是公关问题”。
§5 对手框架回应:边界缺失论的失效边界在哪
接受 + 边界,不是自我辩护。
对手立场一(HRO 学派,LaPorte / Roberts / Rochlin): 高可靠性组织理论用航母、空管的实证反驳 Perrow——证明高风险系统经由正确的组织文化可长期维持极低事故率。接受:这是对的,事故并非纯粹”不可避免”,组织能力是真实变量,小冰活下来就是证据。边界:但 HRO 的前提是组织把可靠性放在最高优先级,而 Tay/Bard 恰恰相反——它们把发布速度放在最高优先级。HRO 不是反驳”边界缺失论”,而是它的另一面:当组织不优先可靠性,HRO 的保护就不存在。
对手立场二(Yann LeCun 等,“这是 LLM 范式本身的缺陷”): 一种声音认为 Bard 这类幻觉证明自回归 LLM 是错误路线。接受:LLM 确有结构性幻觉,LeCun 对此判断没错。边界:但这无法解释 Tay(非 LLM)的同构失败,也无法解释为什么同代 LLM 有的酿成事故、有的没有。把根因推给”模型范式”,恰恰是 §0 要挡掉的技术决定论——它让组织免于追问自己的发布流程。我的赌注:未来 3 年幻觉率会下降但不会归零,所以”边界缺失论”比”换范式论”对 PM 更可操作。
[!note] failure scenario:本节结论会在哪里失效 “launch 压力下边界缺失”这个根因,在非时间敏感、非竞争驱动的失败上会失效。比如纯技术性的能力边界误判(让 AI 做它当前根本做不到的任务,见 A06 采纳与组织侧失败),或恶意的供应链投毒——这些根因不是”赶发布省了边界”,而是”问题选择错误”或”威胁建模缺失”。把所有 AI 失败都归因到 launch 压力,会变成另一种万能叙事。本节的解释力仅覆盖 input/output 两类、且发生在高竞争发布场景下的失败。
§6 跨域呼应:从滴滴安全事故分析到 AI 发布门禁
这是本专题的不公平优势节点。Rick 在滴滴/99 做安全产品时,处理的恰恰是同一类问题:一个高曝光、强耦合的系统,如何在业务扩张压力下不向安全边界漂移。
降发生方法论 的内核是海恩法则——每一起严重事故背后有大量未遂先兆。把它平移到 Tay/Bard:96000 条毒推文之前,是上线 1 小时内就出现的对抗探测(先兆未被监测);$1000 亿市值蒸发之前,是那条 JWST 错误在广告制作链上无人复核(先兆被忽略)。降发生方法论要求把先兆监测前置到发布门禁——这正是两案缺的东西。Tay 该有的是”对抗输入实时告警 + 自动熔断”,Bard 该有的是”高曝光输出强制事实核验”,二者都是把”降事故概率”转化为”降先兆漏报率”的工程化。
安全感知与干预 提供的是另一半:多层级干预设计。在滴滴,安全感知到风险后并非一刀切下线,而是分级干预(提示→限制→转人工→阻断)。Bard 若有这套,高曝光输出在”模型置信度低/涉及可核验事实”时就该触发类 明镜系统 的实时核查路径,而非裸奔进广告。把”优雅降级”从 AI UX 概念(p304 - 防御性 UX:对抗延迟与幻觉 的四层降级)接到安全工程的分级干预,二者结构同构——这不是类比,是同一套控制论。
§7 PM 决策启示
- 面试怎么用: 被问”举一个 AI 产品失败案例”时,不要复述新闻,要给框架——“Tay 和 Bard 看似一个死于输入一个死于输出,但根因都是 launch 压力压缩了边界验证;这告诉我发布门禁要把’高曝光输出核验’和’对抗输入熔断’列为不可压缩的阻塞项。“30 秒展示你看的是机制不是事故。
- 选型怎么用: 评估一个 AI 供应商/方案,问的不是”幻觉率多少”,而是”你们的发布流程里,高曝光输出有没有强制事实核验门禁、对抗输入有没有实时熔断”。问边界,不问参数。
- 复现怎么用: 自己做 AI 产品上线 checklist 时,把这两案钉成两条 P0:(1) 任何在线学习/用户可改写模型行为的功能,学习信号必须离线审核、不实时回灌;(2) 任何高曝光场景的模型输出,必须过事实核验门禁 + 一键熔断预案。
§8 与已有节点的关系
- 对照 m207 - Agent 产品化:场景推演与失败模式:m207 讲的是 Agent 内部六类失败模式(规划/工具调用/推理/循环/雪崩/越界)的前瞻推演,本节是对两起已发生事故的回溯解剖——前者是 pre-mortem,后者是 post-mortem,互为镜像。m207 的”HITL 断点”正是本节”边界缺失”的解药,本节为 m207 提供了”不设断点会怎样”的真实代价。做的是对话与深化,不复述 m207 的六类表。
- 对照 c13 - 幻觉的不可消除性:c13 论证幻觉为何不可消除(架构层),本节是它在 Bard 上的产品级后果剖解——证明 c13 的”幻觉是流程问题不是模型问题”判断在真实事故中成立。做的是补缺:把架构判断接到事故现场。
- 对照 p304 - 防御性 UX:对抗延迟与幻觉 与 p305 - 信任架构与可解释性设计:p304/p305 给的是”该怎么防”的设计方案,本节给的是”不防会怎样”的反面标本。做的是纠偏与佐证。
- 与同专题 A03 输入侧失败·对抗用户与注入、A04 输出侧失败·幻觉与法律约束 的关系:A03/A04 是分类学的类型定义,本节 E01 是这两类的配对实例化——把抽象的 input/output 失败,落到 Tay/Bard 两个可触摸的标本上。做的是分类学的实例验证。
- 与 A01 失败考古学方法论(即任务中所指 0412 A07 红队脉络的方法论升级)的关系:A01 主张”不做 case-by-case,建失败分类学,从失败反推设计原则”——本节是这一方法论的第一次完整施工:不停在”Tay/Bard 各自的故事”,而是抽出”边界缺失”这条可迁移的设计原则。
§9 关联节点
核心(必读)
- A02 AI 产品失败分类学·五类 — 本节是 input/output 两类的实例标本
- A03 输入侧失败·对抗用户与注入 — Tay 的类型归属
- A04 输出侧失败·幻觉与法律约束 — Bard 的类型归属
- c13 - 幻觉的不可消除性 — Bard 幻觉的架构根因
- m207 - Agent 产品化:场景推演与失败模式 — 失败模式的前瞻镜像
- 降发生方法论 — 先兆前置到发布门禁的方法论内核
- 安全感知与干预 — 分级干预与优雅降级的同构
延伸(可选)
- p304 - 防御性 UX:对抗延迟与幻觉 — “不防会怎样”的设计对照
- p305 - 信任架构与可解释性设计 — 信任损伤的设计回应
- 明镜系统 — 实时核查路径的安全工程实例
- 幻觉 — 概念卡
- Gemini / ChatGPT — 竞争节奏债的两端
- Anthropic / Constitutional AI / RLHF — 对齐手段对输入/输出侧防御的补足
- A05 边界侧失败·权限承诺与情感 / A06 采纳与组织侧失败 — 另三类失败
- AI PM 知识图谱·总索引 — 总入口
修订日志
- 2026-06-07 R0:首稿。确立”launch 压力下边界缺失”为双案共同根因主轴;接入 Perrow/Reason/Leveson/Rasmussen 四理论与 Rick 的降发生/安全感知方法论;Tay/Bard 事实经核实简报接地,JWST/2004 ESO、16h/96000 条、~$1000 亿等关键数字均标来源年份与争议点。