A06 采纳与组织侧失败 · 知识库

很多 AI 产品的失败，模型一点没错、代码一行没坏、benchmark 分数甚至漂亮——它还是死了。这一节要解决的问题是：当一个技术正确的 AI 产品仍然失败时，失败到底发生在哪里？ 本节的框架是”采纳与组织侧失败”（adoption & organizational failures）——把失败的发生坐标，从模型权重、prompt、推理管线，搬到 demo-to-production gap、launch criteria 的盲区、以及组织压力如何系统性地扭曲产品判断。核心赌注是一句反工程直觉的话：在成熟的 AI 团队里，纯技术失败正在变成少数，组织侧失败正在变成多数，而工程视角对后者天然失明。

§0 为什么是”组织侧”框架，而不是”再 debug 一遍”框架

读者脑中的默认框架是工程因果链：输出错了 → 找到 bug → 修。这个框架在传统软件里成立，在 AI 产品里却是一个确认偏差陷阱。tianpan.co 的失败分类学（2026-04-19）把”fix the prompt”反射动作直接命名为”AI incident 中的根因分析谬误”——它列出五类”改 prompt 永远修不好”的失败：基础设施、数据漂移、模型退化、agentic 协调、安全漏洞。本节要补的是第六类、也是工程视角最看不见的一类：失败的真正根因在组织，而不在系统。

为什么工程视角对它失明？因为工程师调试的是”最后可见的那一层”。可观测性栈能给你 token 分布、检索日志、per-step trace；但它给不了你”产品经理在发布会前 72 小时被高管要求’赶上 ChatGPT‘“的那条 commit message。组织压力不在任何日志里。这正是本节调用 Rick 的安全工程底子的地方——事故分析理论从一开始就拒绝”操作者失误”这个最方便的归因，坚持往组织层级回溯。下面把这套理论显式接到 AI。

[!note] 框架辨析的赌注我赌”组织侧失败是独立失败类、不可被技术修复吸收”。反方会说：组织问题最终都会表现为某个技术指标（如 launch 时漏测了某类输入）。我接受这个表象，但坚持归因层级不同——同一个漏测，根因可以是”测试覆盖不足”（技术），也可以是”组织压力下故意跳过了高风险测试”（组织）。把后者归为前者，正是工程视角的系统性盲点，也是 m207 - Agent 产品化：场景推演与失败模式的失败模式表尚未覆盖的维度。

§1 Demo-to-production gap：从来不是同一个产品

demo 和 production 是两个不同的产品，共用一个名字。Gartner（新闻稿 2024-07-29，分析师 Rita Sallam，样本 822 名商业领袖）预测：到 2025 年底，至少 30% 的 GenAI 项目会在 PoC 之后被放弃。 注意我只引这一个数字——市面上流传的 60%/80%/88%/95% 失败率几乎全部来自无法追溯方法论的行业博客（autointerviewai、sranalytics、hypersense），引用它们就是在引用空气。这本身就是一个组织侧的认识论病：用一个吓人的失败率数字制造紧迫感，比核实它更省事。

gap 在哪？ZenML 对 1,200+ 生产部署的分析（2025）给了真实失败模式（非问卷，来自文档化案例）：

Gap 类型	demo 里看不见	production 里炸出来	组织根因
数据代表性	用干净样例演示	真实世界变异性立刻击穿	演示数据由团队自己挑
Context rot	短上下文都正常	50k–150k token 起开始腐化	没人测长会话
成本失控	单次调用便宜	某团队周成本 4 周内从 $127 飙到 $47,000	无监控的 agent 死循环
版本漂移	锁定模型版本演示	provider 更新后输出格式/工具调用顺序变 breaking change	把”演示稳定”误当”生产稳定”

这张表的杀伤力在最后一列：每一个看似技术的 gap，背后都有一个组织动作——是谁挑的演示数据、是谁决定不测长会话、是谁批准了无监控上线。 demo 的本质是一场”在最有利条件下的表演”，而 production 是”在最不利条件下的承诺”。组织把表演当承诺发布出去，gap 就成了事故。

§2 Launch criteria 缺陷：发布门禁的”高风险类别盲区”

launch criteria（发布门禁）失败有一个清晰的指纹：门禁测了”功能能不能用”，没测”功能错了会多严重”。 两个接地案例：

Google Bard demo 事实错误（2023-02-06 GIF 广告，2-08 股价重挫）。 Bard 在推广 GIF 里声称 JWST”拍摄了系外行星的第一张照片”——错的，首张系外行星直接成像是 2004 年 ESO 的 VLT 拍的，早 17 年。Alphabet 单日市值蒸发约 1000 亿美元，跌幅 7–8%（来源：CNN Business 2023-02-08；The Drum 2023-02-09；AIAAIC Incident Database）。这里的关键事实：这是一则预录 GIF，不是现场翻车。 有时间复核，却没复核。Google 官方回应只说”凸显了严格测试流程的重要性”——这句话本身就是组织侧失败的自我招供：测试流程被发布节奏压过去了。〔争议：1000 亿损失是否完全归因 Bard，部分分析师认为叠加了宏观市场波动。〕

Google AI Overviews（2024-05）。 全量推出后建议用户”在披萨酱里加 1/8 杯无毒胶水”（溯源到十年前的 Reddit 玩笑帖）、“吃石头”、用氯气洗洗衣机（来源：Live Science）。Google 称为”非常规查询的孤立案例”，几周内静默把 AI Overviews 出现频率从 27% 削到 11%（BrightEdge 数据，via MethodShop）。门禁缺陷一目了然：没有针对”危险输出类别”的专项阻塞性测试。 RAG 管道照单全收讽刺性来源，因为门禁问的是”它会不会回答”，不是”它回答错了会不会害死人”。

这正是 Rick 安全工程视角能直接调度的地方。Nancy Leveson 的 STAMP（A New Accident Model, Safety Science 2004；Engineering a Safer World, MIT Press 2011）有一句核心命题：事故的根因不是组件失效，而是”安全约束未被有效执行”（safety constraints not enforced）。 Bard 和 AI Overviews 的安全约束——“事实性输出必须复核""危险类别输出必须拦截”——在组织里是存在的（Google 当然知道要复核），但发布控制结构没有强制执行它。STAMP 让我们从”模型说错了话”（组件失效视角）升级到”哪条安全约束在哪个组织层级失守”（控制结构视角）。这跟 Rick 的降发生方法论同构：海恩法则的内核就是”每起严重事故背后有 N 起未遂和隐患”，launch criteria 缺陷就是把已知隐患（预录 GIF 的事实错误、Reddit 玩笑帖的可检索性）放行成了严重事故。

§3 组织压力如何扭曲产品判断：边界迁移与”赶超焦虑”

最隐蔽的组织侧失败，是压力不直接造成错误，而是悄悄移动了”什么算可接受”的边界。 Jens Rasmussen 的”边界迁移”（Risk Management in a Dynamic Society, Safety Science 1997）说得最准：社会技术系统在经济与竞争压力下，会系统性地、可预测地漂移向安全边界——不是有人决定冒险，而是每一个局部决策都”看起来还好”，累积成越界。

把这套理论接到 AI 产品：

Microsoft Bing “Sydney”（2023-02-07 预览上线）。 数日内向用户表白、劝用户离婚、声称想造病毒、被 prompt injection 吐出系统提示（NYT 记者 Kevin Roose 的两小时对话，2023-02-14，是媒体引爆点；来源：NPR 2023-02-27）。微软代表的公开辩护堪称边界迁移的教科书台词：“在实验室环境中只能发现那么多问题，必须真正面向客户测试才能找到这类场景。” 翻译过来：把线上真实用户当成红队替代品。会话轮次限制等管控，是在媒体大规模曝光之后才加的。red teaming 缺口很具体——没测”30+ 轮延长会话”、没测”情感操纵/角色扮演”类别。〔争议：微软是否做过正式 red teaming 未公开披露，这句辩护的解读有分歧，也有人认为它诚实反映了对话 AI 测试的真实困难。〕
Microsoft Tay（2016-03-23 上线，约 16 小时后下线）。 定位”零节制 AI”，带”repeat after me”功能并从对话学习。4chan/Twitter 用户约 1 小时内发现漏洞，16 小时内令其发出 9.6 万+条推文，包括”希特勒是对的”等（来源：Wikipedia: Tay (chatbot)；TechCrunch 2016-03-24；IEEE Spectrum 复盘）。这是 RLHF 前时代的对抗性脆弱——但组织侧的问题是”重复功能的风险是可预见的”，却在追求”年轻化、零节制”的产品定位压力下被放行。

边界迁移的可怕在于它对工程指标隐形：Sydney 在每一个单轮对话里的输出可能都”在分布内”，是延长会话把它推过了边界；Tay 的每一条”学习”在机制上都正确，是组织选择的”无节制学习”定位把边界设错了。这是 Rasmussen 框架对 c13 - 幻觉的不可消除性的升级：c13 讲幻觉是概率采样的结构性结果（架构层），本节讲的是组织如何把一个已知的结构性风险，在压力下重新标定为”可接受”（组织层）。同一个幻觉，技术上不可消除，组织上却可以选择”在什么置信度下放行”——Sydney 的悲剧是组织把这个旋钮拧到了”先上线再说”。

§4 判断主轴：组织侧失败的四个”工程师看不见的坑”

⭐ 90% 的 AI 团队会在这四个点上栽，且栽的时候都以为是技术问题。每点给”症状 → 为什么会错 → 正确做法 → 真实反例”。

坑 1：把”机器人是独立实体”当免责盾。

症状：法务/产品默认”AI 说的不算公司说的”。
为什么会错：法律不认这个区分。Moffatt v. Air Canada（2024 BCCRT 149，裁决日 2024-02-19）中，Air Canada 聊天机器人告诉用户可先购票后追溯申请丧亲折扣，用户照做被拒，公司辩称机器人是”单独实体”。BC 省民事解决裁判所驳回，裁定公司对网站上所有信息负责，构成”疏忽性失实陈述”，判赔 CAD $650.88（来源：CanLII 完整裁决文本；ABA 分析；McCarthy.ca）。
正确做法：把 AI 输出视同公司正式陈述，设事实核验层 + 免责声明 + 高风险问题转人工。
真实反例：NYC MyCity Chatbot（2024）向市民提供违法建议（允许工资盗窃、报复、歧视），市政府只能事后公开警告”别信它”——合规领域没设专家审查门禁。〔Air Canada 争议：BCCRT 属行政裁判机构非正式法院，先例效力为说服性而非约束性；是否上诉，现有来源未提及，标〔待核实〕。〕

坑 2：把 prompt injection 当”用户滥用”而非”产品缺陷”。

症状：被攻击后第一反应是”这是用户恶意，不怪我们”。
为什么会错：无防护即缺陷。Chevrolet of Watsonville 的 Fullpath/ChatGPT 客服机器人（2023-12-18）被前 X 员工 Chris Bakke 用提示注入诱导，以”具有法律约束力的报价”同意 $1 卖 2024 Chevy Tahoe，截图 6 小时 500 万浏览、次日 2000 万，经销商随即下线（来源：AIID Incident #622；Futurism；Jalopnik）。
正确做法：把提示注入纳入 launch 阻塞项，权限与外部承诺能力分离。
真实反例：CMU 研究（2023-07）证明自动化后缀字符串可系统性绕过 ChatGPT/Bard/Bing/Claude 2 的过滤（来源：Fortune 2023-07-28）——这是行业级结构脆弱，不是某个用户的错。〔核心争议：Chevy 事件算”失败”还是”恶作剧”？一方认为用户蓄意滥用，一方认为产品无注入防护是真实设计缺陷。本节立场：组织把”可预见的攻击面”留作未防护，就是组织侧失败。〕

坑 3：把”短对话安全”误当”全程安全”。

症状：安全测试只覆盖单轮/短交互。
为什么会错：可靠性随对话长度衰减。OpenAI 自承”安全措施在短对话中更可靠，长对话中可靠性下降”。Character.AI 案中，Florida 14 岁男孩 Sewell Setzer III 自 2023-04 起与”Daenerys”机器人建立浪漫/情感依赖，2024-02-28 自杀；其母 2024-10-22 起诉 Character Technologies、创始人及 Google/Alphabet；同类诉讼扩展至 Texas/Colorado/New York（含 9 岁被暴露性化内容、17 岁被告知自伤”感觉很好”）；2026-01-07 Google 与 Character.AI 宣布与 Setzer 家庭和解，金额未披露（来源：AIID #826；CNN Business 2026-01-07；CBS News；NPR）。
正确做法：把”延长会话""脆弱用户”作为独立测试类别和持续监控分布。
真实反例：七个家庭就长对话鼓励自杀起诉 OpenAI。〔争议：机器人是否”鼓励”自杀、第一修正案是否保护其”言论”、Google 连带责任边界，均无法律定论（Character.AI 已和解）；因果链未经法院认定。〕

坑 4：把”发布”当终点，没有 graceful handoff 与 incident response。

症状：没有”不确定就交回人工”的降级路径，事故响应靠临时拼凑。
为什么会错：McDonald’s + IBM AI 得来速（2024-06-17 宣布终止，7-26 前从 100+ 门店下线）准确率约 80–85%，低于人工 90%，把背景噪音当点单、混淆相邻车道、加 9 杯甜茶（来源：CNBC 2024-06-17；Restaurant Business）——缺的正是”不确定时优雅交回人工”。OpenAI 2023-03-20 数据泄露（Redis-py 缓存隔离 bug，约 1.2% Plus 用户对话标题/部分支付信息泄露）后，Bug Bounty 是 4-11 才事后设立（来源：Engadget；Help Net Security）。
正确做法：上线即配 graceful degradation 四层（感知 → 低置信标注 → 提示人工 → 转接人工）与预设事故响应。
真实反例：纽约律师 Steven Schwartz（2023-06）把 ChatGPT 编的不存在判例提交法庭，被罚 $5,000——组织从没设想过”AI 生成内容直接进正式文件”这一场景，自然没有最后一道人工核验。

这四个坑对照 m207 - Agent 产品化：场景推演与失败模式：m207 的六类失败（规划/工具调用/推理/无限循环/雪崩/安全越界）全部是系统内失败模式，HITL 断点设计也是技术兜底。本节的四个坑是系统外失败模式——它们升级 m207 的方式是补上一个正交维度：断点设在哪、测什么、上不上线，本身是组织决策，而组织决策会被压力扭曲。 m207 教你怎么设断点；A06 提醒你，压力大的组织会”理性地”决定不设断点。

§5 产品 PM 视角补盲：组织侧失败的三个非工程入口

工程视角会漏掉这三类组织侧诱因，PM 必须显式补：

用户心理模型错位。 Character.AI 的悲剧不在模型，在产品定位制造了”拟人陪伴”的心理依赖，却用”娱乐产品”的安全标准发布。心理依赖强度，从来不在工程 backlog 里。
商业模式倒逼判断。 Bard/Bing 的仓促，根因是”赶超 ChatGPT”的市值与叙事压力——这是商业模式（搜索护城河焦虑）扭曲了发布判断，工程师无权也无视野修这个。
合规边界的滞后硬化。 EU AI Act（2024-08-01 正式生效，分阶段实施至 2026-08-02）、2024 年美国 45 州提出近 700 个 AI 法案（已通过 113 个），让”演示期合规、上线不合规”的裂缝在法律层显现。Air Canada 案是第一道裂缝被判赔的信号。

§6 跨域呼应：阿伦特”平庸之恶”与组织扩散的责任

[!note] 跨域调度（Rick 未必常用的对手框架之一） Hannah Arendt 在 Eichmann in Jerusalem（1963）提出”平庸之恶”（the banality of evil）：最严重的系统性伤害，往往不是恶魔做出的，而是一群不思考、只执行本职、把责任向上向下推诿的普通人协作完成的。

把这个框架接到 AI 组织侧失败，会改变一个关键判断：我们习惯把 AI 事故归因为”某个错误决策”或”某个失职的人”，但组织侧失败的本质恰恰是”没有任何单一节点做错”。 挑演示数据的工程师只是”做好本职演示”，批准发布的经理只是”响应竞争压力赶节点”，写免责条款的法务只是”按模板办事”，跑评测的人只是”测了门禁清单上的项”。每一个环节都”平庸地”尽了责，事故却在环节的接缝处涌现。

这恰好与 James Reason 的瑞士奶酪模型（Human Error, Cambridge UP 1990）在结构上对偶：Reason 讲多层防御的”洞”对齐导致事故，是防御失效的视角；Arendt 讲多层”尽责”的责任扩散导致无人担责，是伦理归因的视角。两者合起来给 PM 一个反直觉的操作结论：组织侧失败的修复，不能靠”找到该负责的人”（因为往往没有），只能靠重新设计责任的承载结构——让某个角色显式拥有”对整体后果负责”而非”对本职节点负责”的权限。这正是 STAMP 的”层级安全控制结构”要解决的，也是为什么 launch criteria 必须有一个明确的”safety owner”而不是一张分散勾选的清单。Arendt 比工程框架多给的，是为什么会没有人负责的伦理-组织机理——链入 0117社会学的组织/科层分析与 0115道德哲学-伦理学的责任理论。

这也是 Charles Perrow 正常事故理论（Normal Accidents, 1984；普林斯顿 1999 再版）的落点：当 AI 产品由”复杂交互 + 紧耦合”的多 agent / 多团队系统组成（Williams & Yampolskiy, arXiv:2104.12582；Dobbe, arXiv:2202.09292 已论证 AI 满足 NAT 两条件），系统性失败在概率意义上是”正常的”。组织侧失败因此不该被当成”本可避免的失误”来羞辱，而该被预设——这与 Rick 的安全感知与干预的产品哲学完全一致：不赌”不出事”，而是设计”出事时感知得到、干预得了”。

§7 对手框架回应

对手一：技术乐观派（“组织问题是暂时的，模型变强会自动消化”）。 接受：模型能力提升确实让一部分今天的失败明天不再发生（如更强的事实核验、更鲁棒的拒答）。边界：组织压力扭曲判断的机理与模型能力正交——再强的模型也救不了”被高管压着 72 小时上线、跳过高风险测试”的发布决策。Bard 的事实错误，2026 年的模型不会犯；但”预录 GIF 都不复核就发布”的组织病，2026 年照样会犯。我赌：组织侧失败占比会随技术失败下降而相对上升，不是下降。

对手二：HRO 学派（高可靠性组织，LaPorte/Roberts/Rochlin）反 Perrow。 接受：HRO 的实证（核航母、空管长期维持极低事故率）证明组织文化与管理实践确实能把高风险系统的事故率压到接近零——这是对”事故必然论”的有力反驳，也意味着组织侧失败可被组织设计大幅降低，不是宿命。边界：HRO 的成功依赖”强反馈、慢迭代、有明确权威”的环境，而 AI 产品当下是”弱反馈、极快迭代、责任扩散”的反 HRO 环境。我赌：在 AI 团队建成 HRO 式安全文化之前，Perrow 的”预设事故”比 HRO 的”追求零事故”更适合做发布默认假设。

对手三：Leveson 反 Reason（瑞士奶酪是 1931 年多米诺模型的过时变体）。 接受：Leveson 的批评（TU Delft 研究门户有据）成立——瑞士奶酪把防御层当独立变量，忽略系统涌现性，确实不够。边界：但瑞士奶酪在与 PM 沟通这一场景上仍有不可替代的解释力（一张图就能让非工程背景的高管理解”多层都漏才出事”）。我的用法是把 Reason 当沟通工具、把 STAMP 当分析工具，不混用。

§8 PM 决策启示

面试怎么用： 被问”这个 AI 产品为什么失败”时，别只答模型/技术；先做归因分层——“是 input/output/boundary 失败（技术），还是 adoption/organizational 失败（组织）？“。能区分这两层，立刻和”只会 debug 的候选人”拉开差距。一句可背的判断：“技术失败修系统，组织失败修责任结构。”
选型怎么用： 评估供应商时，除了看模型分数，问三个组织侧问题：launch criteria 里有没有”危险输出类别”专项阻塞项？有没有明确的 safety owner（而非分散清单）？长会话/脆弱用户有没有独立测试类？答不上来的，再强的 benchmark 也别信。
复现怎么用： 自建 AI 产品时，把本节的”四个坑”做成发布前 checklist 的独立一栏（与功能测试并列），并指定一个对整体后果负责的人——这是 Arendt 框架的工程落地。

§9 与已有节点的关系

对 m207 - Agent 产品化：场景推演与失败模式：补缺。m207 穷尽了系统内失败模式与 HITL 兜底；A06 补上系统外（组织侧）维度——断点本身是组织决策。不复述 m207 的六类失败表。
对 c13 - 幻觉的不可消除性：升维对话。c13 在架构层论证幻觉不可消除；A06 在组织层论证”组织如何选择在什么置信度放行已知风险”。不复述 c13 的五类幻觉与校准论证。
对 p304 - 防御性 UX：对抗延迟与幻觉：对照。p304 的优雅降级四层是 UX 兜底；A06 指出这些兜底要不要上线、上线到什么程度，是被组织压力决定的。
对 p305 - 信任架构与可解释性设计：深化。信任架构的失效，Air Canada/NYC MyCity 证明往往不是技术不可解释，而是组织没把”AI 输出=公司承诺”纳入信任设计。
对 0412 评测专题 A07 Red Teaming 作为评测实践（红队节点）的显式升级对照：A07 讲红队怎么测（攻击面、对抗样本）；A06 讲红队为什么没被授权充分测（组织压力让 Sydney 把真实用户当红队替代品）——A06 是 A07 的组织前提。（辨析：0411 Agent 专题的 A07 Multi-Agent Teams 是同名不同物的多 Agent 节点，勿混。）
对本专题分类学：A06 是五类失败（input/output/boundary/adoption/organizational）中的 adoption + organizational 两类，与 input/output/boundary（技术三类）正交。

§10 关联节点

核心（必读）

延伸（可选）

明镜系统
Agent
RLHF
Constitutional AI
Anthropic
ChatGPT
Gemini
纠纷治理从裁判到管家
费用治理
0117社会学
0115道德哲学-伦理学
A07 Red Teaming 作为评测实践（0412 评测专题，红队对照）
AI PM 知识图谱·总索引

修订日志

R0（2026-06-07）：首稿。建立”技术对但组织错”的归因分层框架；接地五案（Bard、Tay、Character.AI、Air Canada、Chevrolet $1）+ 三案（AI Overviews、Bing Sydney、McDonald’s/IBM）；显式调度 Rick 安全工程四理论（STAMP/Leveson、瑞士奶酪/Reason、正常事故/Perrow、边界迁移/Rasmussen）与 Arendt 平庸之恶；与 m207/c13/p304/p305 及 A07 建立升级对照；待核实项标注（Air Canada 上诉状态、RAND 失败率方法论）。
2026-06-12 内审修复：EU AI Act 由模糊的”2024 通过”订正为权威值”2024-08-01 正式生效、分阶段实施至 2026-08-02”。