R

E01 AI 项目组织失败案例剖解

创建 2026-06-07 更新 2026-06-11 2 条双链 组织采纳 专题 AI 整理

一个公司花了八位数美金、选对了模型、demo 让董事会鼓掌,半年后项目悄无声息地死了——账该记在谁头上?本节点要解决的问题是:把”技术对了、部署败了”这件事,从抽象的归因争论拉到具体的尸检台上。A05 AI 项目失败的组织归因 已经在概念层论证了”为什么该往组织看”,本节点不复述那套框架,而是做病理解剖——拿三个有公开记录、可追溯的真实企业 AI 失败,逐个剖开,验证一个反共识判断:失败几乎从不发生在”模型层”,而发生在它和组织接触的那道缝里——流程、激励、所有权。 视角是案例尸检学(case autopsy):不问”AI 强不强”,只问”组织在哪个环节把一个好能力用死了”。

§0 为什么是”案例尸检”而不是”失败率综述”

读者脑中关于 AI 失败的默认材料是统计综述:80% 失败、95% 试点无 ROI、60% 因数据被放弃。这些数字(见 A05 AI 项目失败的组织归因 §1 已逐条接地)有用,但它们有一个致命的解释力缺陷——总量数字告诉你”很多项目死了”,却不告诉你”它们是怎么死的”。一个 PM 拿着”80% 失败率”上选型会,除了制造焦虑,什么决策都做不出。

所以本节点刻意选择尸检而非综述,要挡掉两种错误框架:

框架核心动作失效之处
失败率综述引用聚合统计,论证”失败普遍”无法定位病灶——知道死了很多,不知道死在哪
单点轶事讲一个戏剧性翻车故事博眼球无法泛化——成了茶余饭后谈资,提炼不出可迁移判据
案例尸检(本节)选 N 个有公开记录的案例,统一用归因框架解剖受限于”公开记录”——成功的内部失败大多不被披露(见 §6 失效边界)

尸检的纪律是:同一把刀解剖每一具尸体。本节用 A05 AI 项目失败的组织归因 立下的四病灶(数据孤岛 / 流程不配 / 激励不对 / 无 owner)作为统一切口,逐案对照——这样三个案例才能横向比较,提炼出”组织失败的共性解剖结构”,而不是三个孤立故事。

[!note] 案例选择的接地纪律 企业内部 AI 项目的失败极少有完整公开尸检——失败的项目悄悄关停,没人发新闻稿。这造成本节点最大的方法论硬伤:能拿到的”案例”,要么是行业研究里的匿名化访谈(RAND/MIT),要么是少数被媒体曝光的标杆翻车(IBM Watson Health)。 因此本节采用”案例分层”:A 类=有公开实名记录的标杆失败(IBM Watson for Oncology、Zillow Offers);B 类=权威研究里方法论可追溯的匿名化失败模式(RAND 65 人访谈、MIT NANDA “影子 AI”现象)。凡推断超出公开记录的,显式标注”〔基于公开报道推断〕“,绝不把分析当成内部尸检披露。

§1 案例 A:IBM Watson for Oncology——技术叙事掩盖的所有权与流程双重崩塌

事实接地(公开记录): IBM 与 MD Anderson 癌症中心 2013 年启动 Oncology Expert Advisor(Watson for Oncology)合作,原始合同范围为 6 个月、240 万美元,后被延期 12 次。2017 年 2 月,德州大学系统审计报告披露:项目总花费已达至少 6200 万美元(其中付给 IBM 约 3920 万、付给普华永道约 2300 万),且采购未遵循标准流程;项目随后被搁置(来源:德州大学系统审计报告,2017,48 页;The Cancer Letter 2017-02-17;STAT News 2017 年 9 月深度调查《IBM pitched Watson as a revolution in cancer care. It’s nowhere close》)。STAT 的调查揭示:内部文件显示 Watson 曾给出”不安全、不正确”的治疗建议(注:未用于真实病人故无人受害),且其训练主要基于 Memorial Sloan Kettering 少数医生构造的合成/假设病例(synthetic cases),而非大规模真实病人数据。系统在旧 ClinicStation 病历系统上试点,从未对接 MD Anderson 新上线的 Epic 电子病历——这道集成裂缝实质上判了它死刑。

用四病灶解剖:

病灶在本案的具体表现是技术问题还是组织问题
数据孤岛/不配训练用合成病例而非真实临床数据;推荐与本地诊疗规范、医保报销、本地药品可及性不兼容组织——数据来源决策由谁定、是否对接本地临床现实,是治理问题
流程不配/无集成系统建在旧 ClinicStation 上、从未对接新 Epic EHR,无法读取实时病历;肿瘤诊疗的多学科会诊(MDT)流程也没给它留嵌入位组织——流程与系统集成决策无人推进,是治理而非算法问题
激励不对医生采信 AI 出错要担医疗责任,不采信无人追究;AI 推荐不进诊疗考核组织——激励结构让”不用”成为理性选择
无 ownerMD Anderson 项目绕过自家 IT 部门采购,归属混乱,审计指出采购流程违规组织——治理真空,无人对端到端结果负责

判断落点: 媒体把 Watson 的失败叙述成”AI 不够聪明”。但尸检显示,真正的死因在它和肿瘤科组织接触的那道缝:一个连真实病人数据都没喂进去的系统,问题首先是”谁决定用合成数据、谁验收、谁为临床安全负责”的所有权问题,其次才是模型能力问题。技术能力的不足是组织治理失效的下游结果,不是独立死因。

§2 案例 B:Zillow Offers——模型”对”得太自信,组织没给它装刹车

事实接地(公开记录): Zillow 2018 年推出 iBuying 业务 Zillow Offers,用 AVM(自动估价模型,即”Zestimate”体系)算法定价批量买房再转售。2021 年 11 月 2 日,Zillow 宣布关闭 Offers 业务、裁员约 25%、计提房产存货减值;2021 年第三季度 Homes 板块存货减记约 3.04 亿美元(因买入价高于当前对未来售价的估计),并预告第四季度还将再确认约 2.4 亿–2.65 亿美元损失(来源:Zillow 2021-Q3 财报新闻稿与 8-K,2021-11-02;CEO Rich Barton 公开表述)。Barton 的解释口径是:模型对房价中短期波动的预测误差超出了业务能承受的范围(“the unpredictability in forecasting home prices far exceeds what we anticipated”)。

为什么这是组织失败而非模型失败: 表面看这是”模型预测不准”——典型技术归因。但更精确的尸检是:任何预测模型都有误差,组织的工作是为误差设计承重结构。 Zillow 的组织失败在于:

  • 流程不配:把一个有固有不确定性的预测模型,直接接进高杠杆、大资金量、低容错的房产收购流程,中间没有足够的人工复核断点和风险闸门来吸收模型误差。
  • 激励不对:增长导向的激励推动 Offers 规模激进扩张(买房量快速放大),放大了模型误差的资金后果——组织奖励的是”买更多房”,而非”在不确定性下稳健下注”。

判断落点: Zillow 案是 p307 - Copilot 到 Autopilot 光谱 的反面教材——它把一个本该 L1/L2(人审决策)的高错误成本场景,当成 L3/L4(系统自治下注)来运行。死因不是”模型错了”,是组织在错误成本极高的场景里取消了人工断点。模型只是按设计办事;是组织没给它装刹车。

§3 案例 C:影子 AI 与”试点炼狱”——匿名化研究里最普遍的死法

事实接地(权威研究,匿名化): 最普遍的 AI 失败不是标杆翻车,而是悄无声息的”试点炼狱”(pilot purgatory)。MIT NANDA《The GenAI Divide: State of AI in Business 2025》(Challapally 等;300 项公开部署 + 52 家机构访谈 + 153 名高管问卷)发现:仅约 5% 的企业把 GenAI 试点转化为实际运营/财务影响。其揭示的关键现象是**“影子 AI”(shadow AI)——员工大量使用个人账号**的 ChatGPT 等工具完成工作,却不用公司斥资部署的官方 AI 系统。同时 RAND RRA2680-1(2024,Ryseff 等,65 名资深从业者深度访谈)独立得出:五大失败根因中前四个是组织性的(问题定义失准、训练数据不足、技术优先心态、基础设施缺口),仅第五个是技术性的(超出 AI 能力边界)。

为什么”影子 AI”是组织失败的活体证据: 这个现象一刀切开了技术归因的伪装——如果失败是因为”AI 能力不行”,员工不会绕过公司系统去用同源的个人版 AI。 他们用个人 ChatGPT 说明 AI 能力本身够用;他们不用公司版,说明公司版死在激励、流程、集成上:

  • 激励不对:用官方工具要走审批、留痕、担合规责任;用个人版没人管、即时见效。理性员工选阻力最小路径。
  • 流程不配 + 无集成:官方工具没接进员工真实工作流,是”另开一个网页”;个人版直接贴进当下任务。
  • 无 owner:影子 AI 泛滥本身就是治理真空的症状——没人对”员工到底在用什么 AI、数据流向哪”负责。

判断落点: 这是三个案例里最重要的一个,因为它是统计上最普遍的死法(5% 成功率背后的 95% 大多死于此),而非戏剧性翻车。它把判断主轴钉死:当员工愿意自费绕过你的官方系统去用 AI,技术能力已被员工用脚投票证明合格,剩下的全是组织问题

§4 判断主轴:剖解 AI 失败案例时的四个致命错位

这是本节点的命门。PM 在读/做 AI 失败案例剖解时,90% 会踩的四个坑,每个配”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

错位一:被”技术死因”的官方叙事带走,不做独立尸检

  • 症状:照搬公司/媒体的归因口径——“Watson 不够准""Zillow 模型失灵”,结论是技术不行。
  • 为什么会错:失败方的官方叙事有系统性偏向技术归因的动机——把账记在 AI 供应商或”算法不可预测”上,能保护内部的流程缺陷与所有权真空不被审视(这是 A05 AI 项目失败的组织归因 §2 论证的”组织防御性叙事”在案例层的具体显形)。
  • 正确做法:拿到任何失败案例,先把官方死因放一边,用四病灶清单独立过一遍——问”数据怎么来的、流程在哪嵌、谁有动机用、谁对结果负责”。
  • 真实反例:Watson 案的官方/媒体早期叙事是”AI 太难做”,但 STAT News 的实地调查(采访内部医生)翻出的真死因是合成数据决策 + 采购绕过 IT + 临床流程不配——全是组织决策,不是算法天花板。

错位二:把”模型有误差”当成失败充分条件,忽略组织有没有为误差设承重结构

  • 症状:看到 Zillow 减记 3 亿,结论”预测房价的 AI 不可行”。
  • 为什么会错:所有预测模型都有误差,这是统计常识不是失败。失败的充分条件是”组织把高误差模型接进了低容错、高杠杆流程,且没设人工断点吸收误差”。误差是模型属性,承重结构是组织责任。
  • 正确做法:剖解时分两层问——(a) 模型误差有多大(技术);(b) 业务流程能承受多大误差、设了哪些闸门(组织)。失败几乎总在第二层。
  • 真实反例:同样用 AVM 估价模型,Opendoor 比 Zillow 更早做 iBuying、在同期市场波动中没有同等规模崩盘——差异不在模型精度,在风控流程与扩张激励的设计(〔基于公开报道推断〕:Opendoor 的收购节奏与对冲结构更保守)。

错位三:把”标杆翻车”当成典型,忽略统计上最普遍的”无声死亡”

  • 症状:研究 AI 失败只盯 IBM Watson、Air Canada 聊天机器人这类上新闻的案例。
  • 为什么会错:上新闻的失败是幸存者偏差的镜像——它们因为戏剧性才被看见,但占比极小。绝大多数失败是没有新闻价值的”试点炼狱”和”影子 AI”,它们才是 95% 失败率的主体。
  • 正确做法:把标杆案例当”放大镜下的极端样本”,把匿名化研究(MIT NANDA、RAND)里的普遍模式当”分布的主峰”。决策判据要建在主峰上,不是建在尾部奇观上。
  • 真实反例:媒体写了上百篇 Watson 的稿,几乎没人报道某中型企业花 50 万部署了内部 AI 助手、员工集体用个人 ChatGPT 把它晾着——但后者才是你公司明天最可能遇到的死法。

错位四:把案例剖解停在”诊断”,不追问”这个组织修得动吗”

  • 症状:剖完得出”问题在流程/激励/所有权”,开个药方”建议优化流程、对齐激励”就收工。
  • 为什么会错:诊断出组织病灶容易,修组织远比修模型难——它涉及重组人、权力、考核,阻力是政治性的(这正是 §6 要引入的康威定律逼问)。一份停在诊断的剖解,对 PM 的实战价值有限。
  • 正确做法:每个案例剖解都要追加”修复可行性”一栏——这个病灶要动谁的奶酪、需要哪一级 sponsor、组织有没有动机真修。把”诊断”升级成”可行性评估”。
  • 真实反例:MD Anderson 的 Watson 病灶(采购绕过 IT、所有权真空)即便被审计明确点出,项目仍被搁置而非修复——因为修复要触及科室与 IT 的权力边界,组织选择了放弃而非重组。诊断对了,组织修不动,照样死。

§5 产品 PM 视角补盲:案例剖解的三个非工程盲点

跳出工程视角,读 AI 失败案例还有三个最易看走眼的非技术维度。

用户心理盲点:失败案例里的”用户拒用”常被误读为产品问题。 影子 AI 现象的本质是用户用脚投票,但投的不是”产品难用”票,是”激励/心理安全”票——用官方工具出错要担责、要留痕,用个人版没风险。PM 若把”拒用”归到 UI/功能,就会去迭代产品,而真病灶是组织没让员工敢用、敢错(心理安全是采纳前提,见 A05 AI 项目失败的组织归因 §5)。

商业模式盲点:有些”失败”是伪需求的正常死亡,不该记到执行头上。 Zillow Offers 的更深问题或许不是模型,而是用算法做重资产、高杠杆 iBuying 这个商业模式本身的脆弱性——把技术能力错配到一个不该自动化的高风险赌注上。剖解时要分清”执行失败”和”商业模式本就不该上 AI”——后者是立项治理的失败,归因层级更高。

合规边界盲点:医疗/金融/出行等强监管场景的 AI 失败,常卡在合规通道而非算法。 Watson 的临床安全争议、以及 Rick 熟悉的滴滴/99 安全感知与费用治理场景,共性是:一个技术完备的 AI 推荐,若组织没有为它建立”出错谁负责、如何审计、如何向监管解释”的合规通道,就永远停在沙盒里。这不是模型问题,是组织没把 AI 接进问责体系。

§6 对手框架回应:实名案例剖解,会不会是”事后诸葛+幸存者偏差”的双重陷阱?

业界反方立场(接受 + 边界): 一种有力的反方批评(常见于数据科学界与归因研究者,如 Duncan Watts 在《Everything Is Obvious》中对”事后叙事”的系统批判)是:所有失败案例剖解都是事后归因,天然带 hindsight bias——结局已知,分析者总能”找到”组织病灶,因为成功项目也存在同样的病灶却没被追究。 你说 Watson 死于所有权真空,但多少成功 AI 项目也有所有权混乱却活下来了?案例剖解可能只是给已知结局编一个自洽故事。

接受它对的部分: 这个批评直击要害,本节必须低头接受两点——(a) 事后归因确实有 hindsight bias,单个案例无法证明”组织病灶导致失败”的因果,只能证明”失败时组织病灶在场”(相关非因果);(b) 幸存者偏差真实存在——只剖死掉的,不剖活下来的,会高估组织病灶的解释力。

但坚持本节的边界: 本节的防御不是”我的单案例归因是铁证”,而是用方法论纪律对冲偏差——(a) 三个案例统一用同一套四病灶框架解剖,是为了找共性结构而非编单个故事;(b) 案例 C(影子 AI)恰恰是对幸存者偏差的部分反制:它不是”死掉的项目”,而是”活着的对照”——同一批员工用个人 AI 成功、用公司 AI 失败,组织变量被天然控制变量化了,技术能力恒定,差异全在组织侧。这比孤立的死亡案例更接近准实验证据。本节坦承:单个实名案例是病理标本,不是统计证明;真正的因果强度来自 RAND/MIT 的群体研究(已在 A05 AI 项目失败的组织归因 接地),案例剖解的作用是把统计结论”具象化、可触摸化”,不是替代它。

Rick 未读的对手框架引入(破 echo chamber):

  1. 康威定律(Melvin Conway, 1968)的逼问:“设计系统的组织,其产出的系统结构必然复制该组织的沟通结构。” 把它对准案例剖解:如果失败的 AI 系统结构是组织结构的镜像,那么 Watson 的”数据-临床脱节”其实复制了 IBM 商务团队与肿瘤科室之间的沟通断裂。这给本节泼冷水——剖出组织病灶只是第一步,真要修,等于重组组织的沟通结构,阻力是政治级的。这正是 §4 错位四要追问的”修得动吗”,也是组织归因框架自身的失效边界:诊断容易,手术致命。

  2. “叙事谬误”(Nassim Taleb, 2007, 《黑天鹅》)的逼问:Taleb 警告人类有把随机事件编织成因果故事的强迫症。对案例剖解的逼问:Zillow 减记可能很大程度是2021 年房市的随机宏观波动击中了一个本就高风险的赌注,把它归到”组织没设刹车”或许是把运气问题叙事成了能力问题。本节接受这点,并据此把判断降级:不说”组织失败导致 Zillow 必死”,只说”组织把高方差模型接进高杠杆流程,放大了随机波动的杀伤力”——是脆弱性设计而非”必然失败”。这是一处主动的判断收窄。

failure scenario 显式标注: 本节”失败发生在组织接触缝”的结论,在以下场景失效:(a) 任务超出当前 AI 能力边界(RAND 第五根因,如 Watson 若被要求做可靠的全新药物因果推断)——此时即便组织完美,技术也是真天花板,归因就该回到技术;(b) 初创/小团队场景——无跨部门孤岛、owner 即创始人、无审批流程,本节四病灶大半不成立,技术能力重新成为主导变量;(c) 纯随机宏观冲击主导时(如 Zillow 案中房市突变的占比若极高),组织设计只能减轻不能避免,归因应在”脆弱性”而非”组织失职”。

confirmation-bias 砍除: 本节早期草拟时倾向于把 Watson、Zillow 都干净利落地判为”纯组织失败”,以强化判断主轴——这是确认偏差。补入反例校准:Watson 的合成数据问题里确有技术-医学难度的真实成分(肿瘤治疗的个性化本就逼近当时 AI 能力边界,对应 RAND 第五根因);Zillow 案里确有不可归因于组织的随机宏观成分。所以本节的精确表述不是”全是组织的错”,而是”在能力足够的部分,组织解释力远大于技术;案例剖解的价值是把这条边界在每个具体案例里划清楚”。

§7 PM 决策启示:三类落地

面试怎么用: 当被问”举一个 AI 项目失败的例子并分析原因”,不要复读”Watson 不够智能”。用尸检框架:先报官方死因,再说”但独立用四病灶过一遍,真死因是 X”(如 Watson 的合成数据决策+采购绕过 IT),最后点出”这是组织防御性叙事在把技术当替罪羊”。再补一句对手框架的自觉——“当然,单案例有 hindsight bias,真正的因果强度在 RAND/MIT 的群体研究里”。这一套能把你从”会讲故事的 PM”升级成”有方法论自觉的 PM”。

选型/立项怎么用: 把这三个案例做成反面 checklist 贴墙上——立项前自检:(a) 我们要喂的是真实数据还是”合成/理想数据”?(Watson 之鉴)(b) 这个场景的错误成本配得上我们打算给的自动化层级吗?有没有人工断点?(Zillow 之鉴)(c) 员工有动机用官方版,还是会去用影子 AI?(试点炼狱之鉴)任一答错,技术选型再对也别上马。

复现/复盘怎么用: 复盘一个失败项目时,用”案例尸检 SOP”——(1) 先记录官方死因并存疑;(2) 用四病灶独立解剖;(3) 分离技术成分(含随机/能力边界)与组织成分;(4) 追加”修复可行性”评估(要动谁的奶酪)。这能避免把每次失败都简单归到”换个模型”上而重复踩坑。

§8 与已有节点的关系

  • A05 AI 项目失败的组织归因实例化(不复述):A05 是 01 概念辨析层,立”为什么该往组织看”的归因诊断学与四病灶框架;本 E01 是 04 实例剖解层,把同一把刀用在三具真实尸体上,验证框架的解释力并暴露其边界(hindsight bias、随机成分)。A05 给语言,E01 给标本。不复述 A05 的 RAND 五根因、BCG 10-20-70 等概念推导。
  • m207 - Agent 产品化:场景推演与失败模式升级对照(不复述):m207 §2.4.4 解剖 Agent 的系统内部技术失败模式(规划/工具调用/推理/无限循环/雪崩/越界)——“AI 自己怎么坏”。本节点升高一个抽象层,剖的是系统外部的组织失败——技术完备的 AI 怎样被组织用死。Zillow 案恰是 m207 “HITL 断点”思想的组织层反例:m207 讲技术上如何设断点,E01 讲组织在高错误成本场景里取消断点的代价。不复述 m207 的六类技术失败模式。
  • p307 - Copilot 到 Autopilot 光谱对照升级(不复述):p307 §3.7 给出按错误成本/任务结构化程度选自动化层级(L0–L4)的框架。Zillow 案是 p307 的实名反面教材——把高错误成本场景错配到 L3/L4 自治层。E01 不复述 p307 的层级定义,只把它当成”诊断 Zillow 死因”的现成判据。
  • m208 - AI 基础设施与中间件选型 的对话:m208 解决”选型对不对”,本节三案的共性恰是”选型/技术对了仍败”,是 m208 的反面接续——选型正确只是必要条件。
  • 跨专题升级对照
    • 对 0416 失败考古学专题 A06 采纳与组织侧失败S01 失败归因分层剖面 的呼应:0416 从”AI 产品失败分类学”切入(输入/输出/边界/采纳侧),本节点从”企业项目部署失败”切入,两者在”采纳与组织侧失败”处交汇——0416 的 A06 给采纳侧失败的分类位置,E01 给该分类下的实名案例标本。不复述 0416 的失败五分类。
    • 对 0421 机制设计专题 A05 激励相容与规则设计A06 信息不对称与委托代理 的对照:本节”激励不对”病灶(影子 AI、医生不采信)本质是激励相容问题——0421 给”激励为什么不相容”的机制设计语言,E01 给”激励不相容如何杀死真实项目”的案例。员工绕用个人 AI 正是一个委托-代理失配的活体案例。
    • 对 0422 STS 专题 A05 技术的社会建构 vs 技术决定论E03 AI 作为基础设施的隐形化剖解 的对照:本节反对”技术决定论”的失败叙事(“AI 不行所以失败”),与 0422 “技术的社会建构”立场同源——失败不是技术内在属性,是技术与组织社会关系的产物。E01 给这个 STS 命题一组企业级实证标本。
  • 与本专题同级节点的关系:本节点是 04 实例剖解层的开篇标本库,向上承接 A 层(A05 AI 项目失败的组织归因 的概念框架)、与同层其它 E 节点(鸿沟、变革管理的实例)并列,向 05 复现层输送”可被 pre-mortem checklist 化”的真实失败模式。

§9 关联节点

核心(必读)

延伸(可选)

修订日志

  • R1(2026-06-07):首稿。确立”案例尸检学”主轴(区别于失败率综述与单点轶事);案例分层(A 类实名 IBM Watson for Oncology / Zillow Offers,B 类匿名化 RAND+MIT 影子 AI)。三案统一用 A05 四病灶解剖。接地:德州大学审计 6200 万美元 + STAT News 合成病例调查(Watson)、Zillow 2021-Q3 3.04 亿减记+25% 裁员+Barton 表述、MIT NANDA 5% 成功率+影子 AI、RAND RRA2680-1 四组织根因。判断主轴四错位(被官方技术叙事带走 / 误差≠失败 / 标杆≠典型 / 诊断不追修复可行性)各配四件套。对手框架接入 Duncan Watts 事后叙事批判(接受 hindsight+幸存者偏差并以方法论纪律对冲,承认单案例是标本非证明);引入未读框架康威定律(修组织=重组沟通结构)与 Taleb 叙事谬误(据此把 Zillow 判断从”必死”降级为”脆弱性设计”)。标注 3 处 failure scenario(超能力边界 / 初创小团队 / 随机宏观冲击主导);1 处 confirmation-bias 砍除(早期倾向判”纯组织失败”,补入 Watson 技术成分与 Zillow 随机成分)。跨专题升级对照 0416/0421/0422/m207/p307/m208 + A05,均显式标”不复述”。〔待核实〕Opendoor 与 Zillow 风控对比的具体结构细节为公开报道推断。