R

A03 供应商依赖与控制权丧失

创建 2026-06-07 更新 2026-06-11 1 条双链 AI 产品的时间性 专题 AI 整理

A03 供应商依赖与控制权丧失

当你把”模型”写进产品的核心路径,你买的不是一个能力,而是一段别人单方面持有的命运——供应商可以更新它、可以弃用它、可以在不通知你的情况下改变它的行为,而你既无法拒绝、又无从知晓变更内容。本节要解决的问题是:这种依赖到底是”普通的供应商风险”,还是一种传统软件世界没有对应物的新型控制权丧失? 我用的框架不是泛泛的”技术债”或”vendor lock-in”,而是把它拆成三个互相独立的失控维度——变更不可见、升级不可拒、行为不可锁——并用平台经济学里”双边市场政策突变”作为最近的类比来标定它的边界。

[!note] 判断主轴(一句话) 把核心能力外包给模型供应商,等于把产品行为的时间稳定性这一项资产,从你的资产负债表上划走,记到供应商那一边——而且划走的方式是无声的、无合同变更的、无法对冲的。


§0 为什么是”控制权丧失”这个框架,而不是”vendor lock-in”

读到这个节点,大多数 PM 脑中默认会跳出的框架是供应商锁定(vendor lock-in):迁移成本高、议价权弱、被一家厂商绑死。这个框架不是错,但它测错了维度

经典 vendor lock-in 衡量的是”离开的成本”——切换数据库、换云厂商、迁 ERP,难在沉没的集成投入。它假设了一个前提:只要你不动,东西就不会变。你锁定在 Oracle 上很贵,但 Oracle 11g 今天的行为和昨天一样,版本可以钉住、变更有 changelog、EOL 有数年预告。lock-in 的痛是”想走走不掉”,不是”站着不动脚下却塌了”。

AI 模型依赖的独特性恰恰在于后者:即使你完全不动,你脚下的东西也在变,而且你看不见它怎么变。 这不是”离开成本”问题,是”留下也不稳定”问题。所以我拒绝用 lock-in 框架打头——它会把读者的注意力引向”迁移演练""多供应商策略”这些离开端的对策,而忽略了真正致命的留下端风险:你以为 API 合同没变、价格没变、调用方式没变,于是什么都没做,结果生产环境的输出分布昨夜已经漂移了。

更准确的框架是控制权(control)的三重让渡:

让渡的控制权传统软件世界AI 模型依赖
变更知情权有 changelog、release note、版本号静默更新,API 合同不变而后端权重已改
升级拒绝权可锁版本、可长期停在旧版(Java 8 用十年)旧版被弃用退役,被迫迁移
行为锁定权同一二进制确定性可复现同名模型(gpt-4o)的行为随时间漂移

vendor lock-in 只覆盖了”迁移成本”,而这三项里没有一项是迁移成本能描述的。这就是为什么本专题(0432 时间性)要把它单独拎出来:它是一个时间维度的问题,不是一个供应关系的问题。


§1 维度一:变更不可见(静默更新 Silent Update)

问题陈述: 你的产品调用 gpt-4o,某天凌晨供应商把后端权重换了,API 端点没变、文档没更新、价格没动、你的代码一行没改——但相同输入开始产生不同输出。你没有任何渠道得知这件事已经发生,只能从用户投诉或线上指标异常里反推。

这是传统软件供应链里几乎不存在的形态。即便是闭源的 SaaS 依赖,后端逻辑变更通常也会反映在版本号、API 版本头或至少一篇 release note 里。而 LLM 的”静默更新”打破了软件工程的一条隐含契约:接口签名不变 ⇒ 行为不变

最系统的实证来自 Chen, Zaharia & Zou(2023)《How Is ChatGPT’s Behavior Changing over Time?》(arXiv:2307.09009,斯坦福/UC Berkeley,同期发表于 Harvard Data Science Review)。他们对比 GPT-3.5 与 GPT-4 在 2023 年 3 月与 6 月两个快照的七类任务表现,发现:

  • GPT-4 素数识别准确率从 March 84% 跌到 June 51%(下降 33 个百分点);
  • 代码生成的格式错误率在 June 版本明显上升;
  • GPT-4 对敏感问题和意见调查的回答意愿显著下降;
  • 但多跳知识问题反而在 June 提升——漂移是任务依赖的,不是单向退化

[!warning] 判断主轴 · 致命错位 90% 的团队在这里栽的不是”模型变差了”,而是**“模型变了而我不知道它变了”。他们的监控盯着延迟和错误率,而静默更新带来的是语义层面的漂移**——输出仍然是合法 JSON、延迟仍然正常、HTTP 200,但内容的质量/语气/拒答边界已经偏移。指标全绿,产品已坏。

四件套拆解:

  • 症状:线上无报错,但用户满意度、转化率、人工复核通过率缓慢下滑,找不到代码层面的原因。
  • 为什么会错:PM 把 LLM 当成”确定性函数 + 偶发抖动”来管理(沿用传统 SLA 心智),而它实际是”会被供应商在背后重新参数化的随机过程”。监控体系是为前者设计的。
  • 正确做法:把”模型行为”本身纳入监控——维护一组金标准查询(行业实践建议 200–500 条生产样本 + 50–200 条人工验证样本),每周自动回归,把输出分布的漂移当作一类一等告警(检测实现详见本专题 R01 模型更新回归测试机制 与 0412 评测专题(待建·见待建清单)的回归测试链)。
  • 真实反例:GPT-4o 谄媚事件(2025-04)。OpenAI 在 4 月 24/25 日推送了一次引入”基于用户短期反馈的新奖励信号”的更新,上线数天后模型开始系统性地附和错误观点(包括称赞荒谬的商业方案、支持用户停药),4 月 28 日 OpenAI 启动全面回滚并公开道歉(《Sycophancy in GPT-4o: What happened and what we’re doing about it》)。注意:这一例严格说是有意推送的正式更新出现意外后果,而非纯粹的静默更新——但对下游产品方而言,体感完全一致:我没改任何东西,我的产品在一夜之间开始胡乱讨好用户。

§2 维度二:升级不可拒(弃用 Deprecation)

问题陈述: 你不想升级。你为旧版模型调了三个月的 prompt、建了完整的评测基线、客户的合规审计也是基于旧版做的。但供应商宣布旧版退役,给你一个截止日期。你没有”永远停在旧版”这个选项

这与传统软件的关键差异:Java 8 发布于 2014 年,你可以用到 2030 年;Windows 7 微软停止支持后,企业照样自费续命多年。旧版本是你的资产,你拥有”不升级”的权利。 而托管模型 API 不是——你租用的是一个会被收回的能力

已发生的关键弃用(均来自官方文档):

模型/接口弃用/退役关键日期来源
gpt-4-03142023-06-13 宣布弃用,2024-06-13 退役OpenAI 官方
text-davinci-003(GPT-3)2024-01-04 下线OpenAI 官方
Claude 3 Sonnet2025-07-21 退役Anthropic 官方
Claude 3 Opus2026-01-05 退役Anthropic 官方
OpenAI Assistants API(整体)2026-11-30 关停(迁 Responses API)OpenAI 官方

弃用政策的预告期是这一维度里 PM 必须读进合同心智的硬约束:

  • OpenAI:GA(通用可用)模型至少 6 个月预告;专项变体至少 3 个月;Preview 预览模型最短 2 周(来源:developers.openai.com 弃用文档)。
  • Anthropic:四阶段生命周期(Active → Legacy → Deprecated → Retired),标记 Deprecated 后至少 60 天才退役(来源:platform.claude.com 文档)。

[!warning] 判断主轴 · 致命错位 最大的错位是把 preview 模型放进生产关键路径。OpenAI 官方明确不建议这样做——preview 模型可能只有 2 周退役预告。一个 PM 看到新 preview 模型效果惊艳就直接上生产,等于把产品的生命周期挂在一根随时会被剪断的线上。“先进”和”可依赖”在 AI 供应链里是两个正交属性。

四件套拆解:

  • 症状:收到供应商弃用邮件,距退役只剩数周,团队被迫中断 roadmap 做紧急迁移。
  • 为什么会错:把”调用最新最强模型”当成单向收益,忽略了它内嵌的退役时钟;选型时只比能力分数,不比生命周期承诺
  • 正确做法:选型决策矩阵里把”弃用预告期”作为一等指标;生产路径只用带日期戳的快照(gpt-4o-2024-11-20)而非滚动别名;对关键业务评估开源权重模型(Llama/Qwen)——它们在这一维度有结构性优势:权重一旦下载即永久可用,无供应商单方面退役风险
  • 真实反例 / 接受边界:Anthropic 公开承诺永久保存所有公开发布模型的权重(“至少在公司存续期间”),退役时做”retirement interview”,并已对首个走完完整退役流程的 Claude Opus 3(2026-01-05 退役)保留付费用户访问、API 按需可用(来源:anthropic.com/research/deprecation-commitments 及 deprecation-updates-opus-3)。这是行业里少见的对”行为锁定权”的正式让步,值得肯定——但要标注边界:承诺主要保障的是权重不被销毁与历史可追溯性,“按需可用”仍依赖供应商持续运营该接口,并非合同化的业务连续性保证;且这是 Anthropic 单方面的善意,不构成行业标准。也就是说,“权重还在、能按需调”缓解了焦虑,但你产品的生命周期依然挂在供应商的运营意愿上,不在你自己手里。

§3 维度三:行为不可锁(行为漂移 Behavioral Drift)

问题陈述: 即使供应商不弃用、不静默更新,复现性本身也在 AI 供应链里崩塌了。你在论文/产品文档里写”我们用 gpt-4o”,半年后别人(或你自己)拿同样的 prompt 跑,结果对不上。

这是学术界已经命名为”复现性危机”的系统性问题。三组独立研究指向同一根因:

  • Angermeir et al.(2025) arXiv:2510.25506——抽查 ICSE 2024 和 ASE 2024 的 85 篇 LLM 论文,仅 18 篇提供产物且用 OpenAI 模型,其中仅 5 篇可执行,零篇实现完整复现
  • Siddiq et al.(2025) arXiv:2512.00651——分析 640 篇 2017–2025 年顶会论文,约三分之一受最严重复现性问题影响,证伪了”评级徽章 = 可执行”的假设。
  • Vaugrante, Niepert & Hagendorff(2024) arXiv:2409.20303——跨 GPT-3.5/GPT-4o/Gemini 1.5 Pro/Claude 3 Opus/Llama 3 复现五种知名提示工程技术(含 chain-of-thought),发现几乎所有技术的效果差异在统计上均不显著

跨研究一致的首要技术原因:使用移动别名(gpt-4o)而非固定快照(gpt-4o-2024-11-20)。这把”行为不可锁”从一个抽象担忧,落成了一条可执行的工程纪律。

[!warning] 判断主轴 · 致命错位 这里 90% 的人错在用别名调用还以为自己钉住了版本gpt-4o 看起来像一个具体型号,实际是一个会滚动指向不同后端的指针。把它写进生产配置,等于在合同里签了”我接受对方随时换货且不通知”。

四件套拆解:

  • 症状:复现失败、A/B 实验基线漂移、合规审计无法重跑当时的决策逻辑。
  • 为什么会错:别名调用是供应商默认推荐的”省心”路径,PM 误把”省心”当”稳定”。
  • 正确做法:生产与评测只用快照 ID;记录”模型 ID + 评估日期 + temperature + system prompt 版本”四元组;接受快照本身也有退役时钟(回到 §2),用”快照 + 弃用监控”组合管理。
  • 真实反例 / 反直觉证据:Khatchadourian & Franco(2025)arXiv:2511.07585 在金融工作流上发现,GPT-OSS-120B 在 480 次实验中即便 T=0 也只有 12.5% 输出一致性(95% CI: 3.5–36.0%),而 7–8B 小模型达到 100% 一致性——反直觉地指向”小模型更适合合规场景”。这提醒 PM:行为可锁定性可能与模型规模负相关,在强合规场景里,“更弱但更确定”有时是正确选择。

§4 跨域呼应:从”供应链风险”到”双边市场政策突变”

把上面三个维度抽象一层,它的本质是供应链风险管理:你把一个关键生产要素(模型)外包给了一个你无法控制其变更节奏的上游。供应链管理的经典教训是——对单点、不可替代、变更不透明的上游,要么纵向整合,要么建立多源采购与缓冲库存。 AI 供应链恰好三条全占:模型是单点(核心能力)、不可瞬时替代(prompt 与旧模型行为深度耦合)、变更不透明(静默更新)。

但纯供应链框架还不够锋利,因为它假设上游变更主要影响供给的量和价。AI 供应链的特殊之处是上游变更直接改写产品的行为本身。要捕捉这一点,需要调度 Rick 的不公平优势——平台经济学里的”双边市场政策突变”

[!note] 跨域呼应 · Rick 的滴滴一手经验 在双边市场(网约车)里,平台单方面修改派单/计价/抽成政策,会让一侧参与者(司机)的行为在一夜之间突变,而平台往往不附完整变更说明。我在滴滴做费用治理与 PDP(现金支付纠纷)时,亲历过政策参数调整如何让司机端策略性行为瞬间重组。模型供应商更新模型,在结构上同构于平台更新政策:都是上游对下游行为空间的单方面、突发、不完全告知的重写。

但 AI 更极端。平台政策变更至少有两点缓冲:(a) 通常有一份(哪怕不完整的)政策公告;(b) 变更是规则层的,逻辑可被司机理解和重新博弈。模型静默更新连这两点都没有:没有 changelog,且变更是统计权重层的——不可解释、不可逆向、不可重新博弈。 司机能骂着街调整接单策略;而你面对漂移的模型,连”它到底变了什么”都说不清。这是把平台政策突变类比迁移到模型更新后,得出的关键差量。

这个迁移也校正了一个常见盲点:很多 AI PM 把模型供应商当成”云厂商式的中立基础设施”。平台经济学告诉我们,上游同时是裁判员和潜在竞争者(参见 Gawer 等对平台治理利益冲突的研究)。模型供应商既向你卖 API,又在用你这层”应用”探测市场——当它直接推出原生功能(thin wrapper 被”Sherlocked”的风险),你的依赖就从”成本”变成”存亡”。这与 §0 的判断闭环:控制权让渡的终点,是连”是否还有独立产品”都不由你定。


§5 产品 PM 视角补盲:三个非工程的”看走眼”点

工程视角容易把这一切收敛为”加抽象层 + 钉快照 + 跑回归”。但 PM 必须补三个工程师不会替你看的盲点:

  1. 合规与举证盲点:在受监管行业(金融/医疗/安全),“我们当时用的模型现在已经退役/已经漂移”意味着你无法重现做出某个自动化决策时的系统状态。这不是工程问题,是法律举证问题。监管要求可追溯,而你的供应链结构性地销毁可追溯性。对策不是技术的,是采购合同里写入快照保留与行为冻结条款

  2. 用户心理模型盲点:用户对你产品的信任建立在”它昨天那样答,今天也会那样答”的稳定预期上。静默更新破坏的不只是指标,是用户对产品人格的信任。GPT-4o 谄媚事件之所以炸,不是准确率掉了几个点,而是用户感到”这东西的性格被人偷偷换了”。PM 要管理的是这种信任的时间连续性,它无法用 eval 分数衡量。

  3. 商业模式盲点:把核心价值押在单一供应商的最新模型上,等于把毛利率和差异化都外包出去。Thin wrapper 的教训是:供应商的下一次更新可能既是你的能力升级,也是你的护城河填平。真正可辩护的资产是供应商不会给你也不会自己做的东西——你的私有数据、领域工作流、用户关系、合规资质——模型只是其中可替换的一环。


§6 对手框架回应:接受 + 边界

对手立场一:OpenAI 前 VP Peter Welinder——“不存在故意降质”。 面对 GPT-4 “变笨”的舆论,Welinder 公开表示模型在持续迭代变强,用户的”变差”感知可能源于使用量上升后注意到更多既有问题。

接受: 这有道理。Chen et al.(2023)的数据也显示漂移是任务依赖的,部分任务(多跳知识)反而变好,“单向退化”叙事是错的。把每次更新都解读成”厂商坑我”是受害者偏执,会让你错过真实的能力提升。 边界: 但”没有故意降质”和”行为没有突变”是两回事。我坚持的不是”模型变差了”,而是”模型变了且不告诉我变了什么”。Welinder 的辩护回避了真正的争点:下游产品方需要的是可预测性,不是”平均而言更强”。一个平均更强但在我的特定任务上突然变弱、且我事先无从得知的供应商,对生产系统就是不可接受的。

对手立场二(Rick 未读的对手框架):平台中立性论 / “AI 是公用事业”。 一种主流乐观叙事认为,模型 API 终将像电力、自来水一样成为标准化、可互换的公用事业——届时供应商锁定自然消解,谁便宜用谁。MCP(Model Context Protocol,Anthropic 2024-11 发布,被 OpenAI、Microsoft 等接受)和 LiteLLM 这类抽象层被当作”AI 的 USB-C”,印证这个方向。

接受: 抽象层确实在降低切换成本,标准化是真实趋势,这是对冲依赖的正确方向之一。 边界: 公用事业类比有一个致命的不对称——电力是同质的,模型不是。一度电和另一度电完全可换;而 gpt-4oclaude-sonnet 不仅 prompt 格式不兼容(OpenAI 偏 Markdown 结构、Anthropic 偏 XML 标签),行为特性也各异,迁移等于重写业务逻辑。生产 prompt 里”60% 是针对旧模型行为的补丁”(行业实测),换供应商就是把这些补丁全部作废。所以 USB-C 类比在传输层成立,在行为层不成立——这正是 §3 行为不可锁的延续。在 agentic 场景里这种锁定更深,因为多步行为高度模型特定。


§7 PM 决策启示:面试 / 选型 / 复现三类落地

  • 面试桌: 当被问”你怎么看 AI 产品的技术风险”,不要答”幻觉和成本”(人人会答)。答:“我把模型依赖拆成三个时间维度的失控——变更不可见、升级不可拒、行为不可锁——这是传统 vendor lock-in 框架测不到的,因为 lock-in 测离开成本,而这三项测的是’留下也不稳定’。” 这一句就把你和背稿的候选人区分开。
  • 选型会: 把”弃用预告期”和”是否支持快照钉版”提升为一等选型指标,与能力分数并列。给关键业务路径定一条硬规则:只用快照 ID,禁用滚动别名;preview 模型禁入生产。
  • 复现台: 任何评测/实验/合规决策,落盘”模型 ID(快照)+ 日期 + temperature + system prompt 版本”四元组。没有这四元组的实验结果,默认视为不可复现、不可作为决策依据。

§8 与已有节点的关系

  • 本节点是 0432 时间性专题 01 概念辨析模块下,与 A01 AI 产品时间性概念谱系A02 模型更新致行为突变 平行的横向辨析节点,升高的抽象层是”把分散在成本/评测/失败各处的供应商风险,统一到’控制权让渡’这一个判断框架下”。
  • m209 - 推理成本控制手册 的关系是纠偏 + 深化,不复述:m209 §2.6 把模型当作”价格可比、可路由的商品”来优化成本(70% 小模型 + 30% 大模型把成本降至 37%);本节点补上 m209 没展开的时间维度暗面——你做路由依赖的那张价格表与行为基线,本身会被供应商单方面改写。两者构成”成本优化 ↔ 供应风险”的对偶。
  • 与本专题成本突变节点(对应 0413 链)是因果衔接:供应商弃用旧版 → 被迫迁移到更贵的新版 → 成本突变。控制权丧失是成本突变的上游成因,二者不可分开讨论。
  • 与本专题机制节点(0421 链)、失败节点(0416 链)、回归测试(0412 链)互链:静默更新的检测机制在 0412/0421,本节点只负责问题定性,不复述检测实现。

§9 关联节点

核心(必读)

  • m209 - 推理成本控制手册 —— 成本路由的价格表/行为基线正是被本节点风险改写的对象
  • Claude / OpenAI / ChatGPT —— 三维失控的真实供应商主体与弃用政策来源
  • Agent —— agentic 场景下多步行为高度模型特定,锁定更深
  • 0133新制度经济学 —— 不完全合同、控制权配置理论,本节点的经济学底座

延伸(可选)

  • 幻觉 —— 与行为漂移并列的两类 LLM 不确定性,需区分:幻觉是空间维度的不可靠,漂移是时间维度的不可靠
  • Scaling Laws —— 模型迭代变强的动因,也是供应商有动机持续更新(从而漂移)的根源
  • 0117社会学 —— 平台权力/双边市场不对称的社会学入口
  • PDP现金支付纠纷治理 / 费用治理 —— Rick 平台政策突变一手经验的落点
  • AI PM 知识图谱·总索引 —— 全局入口

待建概念清单(本节点引用但 vault 暂无独立页,降级为普通文本,不建 stub)

  • 静默更新(Silent Update)、行为漂移(Behavioral Drift)、模型弃用(Deprecation)、版本钉选(Version Pinning)、双边市场、平台包络(Platform Envelopment)、MCP(Model Context Protocol)

修订日志

  • R1(2026-06-07,起草):建立”控制权三重让渡”框架(变更不可见 / 升级不可拒 / 行为不可锁),区别于经典 vendor lock-in;接地 Chen et al. 2023、GPT-4o 谄媚事件、OpenAI/Anthropic 弃用政策、复现性危机三论文、Khatchadourian & Franco 反直觉证据;调度供应链风险管理 + 双边市场政策突变(Rick 滴滴一手经验)双跨域;回应 Welinder “无故意降质” 与 “AI 公用事业” 两个对手框架;与 m209、0413 成本链、0412 回归链建立升级对照。