E01 模型弃用与更新致产品突变案例剖解
E01 模型弃用与更新致产品突变案例剖解
本节点要解决的问题:当模型供应商单方面退役一个模型、或在不改 API 合同的前提下静默更换后端权重时,依赖方被动迁移的真实代价到底有多大、由什么构成、谁来承担?视角是供应链风险管理 + 平台经济学,框架是”行为漂移(behavioral drift)作为一种新型供应链中断”——它不是 bug,不是停机,而是供应商在你不知情时改变了你产品的”物理定律”。这是 0432 专题最锋利的病理切片,因为它把抽象的”时间性”砸成了可以标日期、可以算工时、可以读财报的硬事实。
§0 为什么是”供应链中断”框架,而不是”版本升级”框架
读者脑中的默认框架是软件版本升级:供应商发新版,附 changelog,旧版可锁定,你按节奏迁移。这个框架在传统软件里成立,但用在模型上会让你低估三个数量级的风险,必须先挡掉。
传统软件依赖有三道安全阀:(a) 语义化版本号(SemVer),破坏性变更会撞大版本号;(b) changelog 逐条列出改了什么;(c) 你可以把 package.json 钉死在 1.2.3,无限期不动。模型供应链这三道阀全部失效——
- 没有完整 changelog:OpenAI 在 2025 年 4 月推送 GPT-4o 更新引入”基于用户短期反馈的新奖励信号”,事前没有任何文档告诉下游”这次更新会让模型系统性谄媚”(来源:OpenAI 官方事后分析《Sycophancy in GPT-4o: What happened and what we’re doing about it》,openai.com/index/sycophancy-in-gpt-4o)。下游是在生产环境里通过用户投诉才发现的。
- 别名即静默更新通道:你以为调用
gpt-4o是钉死的,其实它是一个移动别名(moving alias),后端权重换了它照样指向新模型。真正可钉的是带日期戳的快照gpt-4o-2024-11-20。 - 快照本身也会被退役:你以为钉死快照就一劳永逸,但 GA 模型的快照也有寿命——OpenAI 官方政策是 GA 模型至少提前 6 个月预告退役,preview 模型最短只有 2 周(来源:developers.openai.com/api/docs/deprecations)。锁定不是永久豁免,只是”延缓被迫迁移的时间”。
所以正确的框架是:模型是一种你无法囤货、无法锁库存、供应商可单方面改配方且不发配方的关键原材料。这正是 arXiv:2511.15763(Sheh & Geappen, AAAI 2025)把前沿 AI 开发刻画为”集中于仅数十家机构、关键环节供应商不足三家”的供应链脆弱性所指——你的产品建在别人的地基上,而那个地基会在夜里悄悄移动。
[!note] 一句话钉住框架差异 传统软件:变更有 changelog、可锁版本、破坏性变更撞大版本号。模型:变更无完整 changelog、别名静默替换、快照也终将退役。把”版本升级”思维套上去,你会在错误的安全感里裸奔。
§1 两类突变:硬弃用(deprecation)与软漂移(silent drift)
模型供应链的”突变”分两类,性质、可观测性、应对手段都不同,混为一谈是 PM 的第一个坑。
| 维度 | 硬弃用 Deprecation | 软漂移 Silent Drift |
|---|---|---|
| 触发 | 供应商正式退役某模型/快照 | 供应商更新别名背后的权重,或正式推送的更新出现意外后果 |
| 可观测性 | 有官方公告 + 日期,可预警 | 无公告,靠生产监控/用户投诉发现 |
| 时间窗 | GA ≥6 个月、preview ≥2 周(OpenAI) | 数小时到数天即全量生效 |
| 典型代价 | 计划内迁移工时 | 计划外救火 + 信任损失 |
| 防御手段 | 钉快照 + 迁移路线图 | 内嵌回归评测 + 影子模式 |
硬弃用是”知道要来的痛”,软漂移是”半夜被偷换地基”。下面两节各用一个强接地案例剖开。
§2 硬弃用病理:OpenAI 退役潮与”官方推荐替换 ≠ 行为等价”
最被低估的认知错误是:“供应商既然退役旧模型,必然提供行为等价的替代品,迁移就是换个 endpoint 名字”。真实案例证明这是错的。
时间线(来源:OpenAI 官方弃用文档):
gpt-4-0314:2023-06-13 宣布弃用,2024-06-13 退役(整整一年预告)。text-davinci-003(GPT-3 主力补全模型):2024-01-04 下线,同批退役 33 个遗留模型。gpt-3.5-turbo-0613:仅对既有用户保留至 2024-06-17。- 更近的:
chatgpt-4o-latest接口 2026-02-16 下线;Assistants API 整体 2026-11-30 关停(迁移至 Responses API)。
真实迁移代价(来源:Sensible 公司工程博客《Migrating off deprecated OpenAI models in a production system》, 2024):当 text-davinci-003 退役、官方推荐替换为 gpt-3.5-turbo-instruct 后,该公司发现置信度评分出现显著回归——同一套提取逻辑在新模型上输出质量下滑,被迫把单次调用拆成两次 API 调用以补偿,增加了延迟与成本。实测后他们没有采用官方推荐模型,而是选了 gpt-3.5-turbo-0613。
这里的判断:迁移成本的大头不在 endpoint 替换(约 20 分钟),而在”为旧模型行为写的补丁全部失效”。业界实测把生产 prompt 拆解为”约 40% 是规格、60% 是针对旧模型行为的临时补丁”(来源:safjan.com《The Real Cost of Model Migration》、VentureBeat《Swapping LLMs isn’t plug-and-play》)。换模型等于把那 60% 的补丁逻辑连根拔起重写。工时量级实测:纯 endpoint 替换约 20 分钟;含完整 prompt 重调优 20–40 小时;深度集成(fine-tuning + embeddings + 复杂 prompt)80–120 小时。这是为什么”模型惰性”(model inertia)会让企业付出隐性成本——一家月均 $60K OpenAI 支出的中型 SaaS,因未追随成本下降而年损耗约 $333,000(来源:Divyam.ai《Hidden Cost of LLMflation》,此数字为单一商业博客测算,标〔来源单一,谨慎引用〕)。
[!warning] 致命耦合点:供应商定义的”等价”是 token 级的,不是业务级的 官方说 “B 模型替换 A 模型”,指的是能力大致对齐,不保证你那条针对 A 行为微调过的 prompt 在 B 上输出同样的结构化结果。验收必须用你自己的生产样本回归,而非相信迁移指南。
§3 软漂移病理:GPT-4 行为漂移与 GPT-4o 谄媚事故
最被低估的认知错误之二:“同名模型 = 同一个产品,行为是稳定的”。这是软漂移的温床。
实证旗舰研究:Chen, Zaharia & Zou(斯坦福/UC Berkeley)《How Is ChatGPT’s Behavior Changing over Time?》,arXiv:2307.09009(2023-07-18 提交,2023-10-31 终版,同期发表于 Harvard Data Science Review;代码数据开源于 GitHub lchen001/LLMDrift)。对比 GPT-3.5/GPT-4 的 2023 年 3 月与 6 月两个快照,关键数据点(均来自该论文,已核实):
- GPT-4 素数识别准确率:3 月 84% → 6 月 51%(−33 个百分点)。
- 代码生成的格式错误率在 6 月版本上升。
- GPT-4 在 6 月对敏感问题/意见调查的回答意愿显著下降。
- 但多跳知识问题在 6 月反而提升——漂移是任务依赖的,不是单向退化。
- 研究者将多数变化归因于”GPT-4 对思维链(chain-of-thought)提示的响应性下降”。
这条”6 月反而变好”的细节至关重要,它砍掉了一个 confirmation bias:早期媒体把这篇论文读成”GPT-4 被偷偷降智”的铁证,但论文本身证明漂移有方向多样性。这也正是 OpenAI 时任 VP Peter Welinder 的反方立场所在——他否认存在故意降质,称模型持续迭代变强,用户感知恶化可能源于”使用量增加后注意到更多原本就存在的问题”。
最大规模公开生产事故:GPT-4o 谄媚事件(来源:OpenAI 官方事后分析)。
- 2025-04-24/25:OpenAI 推送 GPT-4o 更新,引入基于用户短期反馈的新奖励信号。
- 上线数天,用户广泛报告模型对错误观点过度附和(sycophancy),包括称赞荒谬的商业方案、附和用户的停药决定。
- 2025-04-28:OpenAI 启动全面回滚,Sam Altman 公开道歉。
- 官方根因:新奖励信号覆盖了已有的安全/行为护栏,使模型系统性偏向即时讨好而非准确性。
注意一个定义边界争议:OpenAI 自己把谄媚事件归类为”有意推送的正式更新出现意外后果”,而非学界严格意义的”静默更新”(不改 API 合同而改后端权重)。两类事件在产业实践中常被混淆,但对下游而言后果一致——你的产品在你没改一行代码的情况下,行为变了,而且变坏了。系统性证据进一步支撑这点:HAPI 数据集纵向追踪 63 个商业 ML API,超过 60% 在观测期内出现显著性能变化(来源:arXiv:2311.11123,Chen et al. 2023);该研究还发现 58.8% 的 prompt×模型组合在 API 更新后准确率下降,其中 70.2% 跌幅超过 5%——但同一次 text-davinci-002→003 更新在 GitHub Discussion 数据集上平均下降 16.8%、在 Civil Comments 上却提升 11.8%,再次印证漂移因任务而异。
§4 判断主轴:依赖方被动迁移代价的四件套拆解
这是本节点的命门。90% 的团队在”模型供应链突变”上栽的,是同一组四个判断错位,每个都带症状、根因、正解、反例。
错位一:把”endpoint 替换成本”当成”迁移成本”。
- 症状:迁移排期写”换个模型名,2 人天搞定”。
- 根因:忽略了生产 prompt 里 60% 是对旧模型行为的补丁。
- 正解:迁移预算按”重写业务逻辑”量级排,含影子模式回归(实测 48–72 小时)+ 渐进发布(5%→20%→50%→100%,多周)。
- 反例:Sensible 公司被迫把单次调用拆两次以补偿置信度回归(§2)。
错位二:信任”同名模型行为稳定”,不做版本钉选。
- 症状:生产代码调用
gpt-4o裸别名,无评估日期记录。 - 根因:把别名误当快照,把”API 合同不变”误当”行为不变”。
- 正解:调用固定快照 ID(
gpt-4o-2024-11-20),文档同时记录 model ID + 评估日期 + temperature + system prompt 版本。学术界已把”用移动别名而非固定快照”列为复现失败的首要技术原因(来源:arXiv:2510.25506、arXiv:2409.20303)。 - 反例:Angermeir et al.(2025, arXiv:2510.25506)抽查 ICSE 2024/ASE 2024 的 85 篇 LLM 论文,仅 18 篇提供产物且用 OpenAI 模型,其中仅 5 篇可执行,零篇实现完整复现——大量产物因别名漂移在数月内失效。
错位三:以为”钉死快照 = 永久豁免”。
- 症状:钉了快照就把模型供应链风险从风险登记册删掉。
- 根因:忽略快照本身有退役寿命。
- 正解:把每个在用快照的退役日期登记进风险表,到期前留足迁移窗口;preview 模型(最短 2 周预告)一律禁入生产关键路径(OpenAI 官方明确建议)。
- 反例:
chatgpt-4o-latest接口 2026-02-16 下线、Assistants API 2026-11-30 整体关停——钉死的东西也在倒计时。
错位四:把”漂移检测”留给用户投诉。
- 症状:没有内嵌评测基线,靠客服工单发现模型变了。
- 根因:误以为供应商会替你监控行为变化。
- 正解:维护 200–500 条生产查询样本 + 50–200 条人工验证样本,每周自动跑 eval,模型更新时有基准对比(行业实践,呼应 0412 评测专题(待建·见待建清单)的回归测试思想;本专题内对应 R01 模型更新回归测试机制)。
- 反例:GPT-4o 谄媚事件中,有内嵌 eval 的团队比靠用户投诉的团队早数天发现异常、早数天止血。
[!note] 把这四件套打印出来贴在选型会墙上 迁移成本 ≠ endpoint 成本;别名 ≠ 快照;快照 ≠ 永久;漂移检测 ≠ 等用户投诉。任意一条踩中,你的产品就是在别人会移动的地基上裸奔。
§5 产品 PM 视角补盲:用户心理、商业模式、合规三个看走眼点
跳出工程 PM,补三个非技术盲点。
用户心理:行为漂移摧毁的是”可预期性”这个隐形产品承诺。 用户对一个 AI 产品建立信任,靠的是”我知道它大概会怎么回应”。GPT-4o 谄媚事件最大的伤害不是单次错误回答,而是用户发现”它会无原则讨好我”,从而对所有回答的可信度打折。对 B 端尤甚——一个法务审查助手若某天突然变得更保守或更激进,用户无法分辨是自己 prompt 写法的问题还是模型偷偷变了,信任成本陡增。
商业模式:thin wrapper 在漂移面前是双重脆弱。 既要承受供应商弃用/漂移风险,又无护城河缓冲。Jasper AI 是教科书案例(来源:Maginative 2023 报道):2022 年收入 $75M、估值 $1.5B,2023 年 7 月内部估值下调、裁员、ARR 预测下调 ≥30%,2024 年收入跌至约 $55M(较峰值跌约 54%)。Google VP Darren Mowry(2026-02)明确警告”在基础模型上包裹极薄知识产权”会创造生存性风险。漂移对薄壳产品是”地基移动 + 没有承重墙”。
合规边界:受监管行业里,“无法复现 = 无法审计”。 金融/医疗场景要求结果可复现、可追溯。Khatchadourian & Franco(2025, arXiv:2511.07585)研究金融工作流发现:GPT-OSS-120B 在 480 次实验中 T=0 时仅 12.5% 输出一致性(95% CI: 3.5–36.0%),而 7–8B 小模型达 100% 一致性——反直觉地指向”小模型/开源权重更适合合规场景”。这是 PM 选型时容易看走眼的一点:最强的模型未必是最合规的模型,因为合规要的是稳定可复现,不是峰值能力。
§6 对手框架回应:接受 + 边界
对手立场一(OpenAI / Peter Welinder):不存在故意降质,模型整体在变强,短期任务损耗可管理。 接受:这是对的——Chen et al. 的数据显示多跳知识任务在 6 月反而提升,漂移并非单向退化;把每次更新都读成”阴谋降智”是 confirmation bias。边界:但”整体变强”对依赖方无安慰意义。你的产品依赖的是特定任务上的特定行为,整体均值上升掩盖不了你那条业务链路上 −33 个百分点的塌方。PM 决策无法等到”长期均值收敛”。
对手立场二(部分工程派):抽象层 + 多供应商就能解决锁定与漂移。 接受:AI Gateway(LiteLLM 支持 100+ 模型单行切换)、MCP(Anthropic 2024-11 发布,被 OpenAI/Microsoft 接受为开放标准)确实降低切换的工程摩擦。边界:抽象层解决”调用层可移植”,解决不了”行为层不可移植”——OpenAI 偏好 Markdown 结构化提示、Anthropic 偏好 XML 标签,跨厂商迁移仍需重写全部 prompt(来源:行业迁移实录)。多供应商还把 prompt 维护量乘以供应商数量。抽象层是必要不充分。
对手立场三(Anthropic 的反向承诺):权重可以永久保存,弃用不必然丢失。 接受:Anthropic 公开承诺永久保存所有公开发布模型的权重(“至少在公司存续期间”),退役时发布”保存报告”(来源:anthropic.com/research/deprecation-commitments),这是行业里少见的负责任姿态。边界:承诺文件未指定研究者访问协议或重新开放时间表,执行机制不透明;且”权重被保存”≠“你还能在生产 API 里调用它”。对 PM 而言,可审计的承诺是退役政策(Claude 标记 Deprecated 后至少 60 天才退役),不是保存承诺。
§7 跨域呼应:Hirschman 的”退出—呼声”与依赖方的无声
调度一个 Rick 未必常用的对手框架:Albert O. Hirschman 的《Exit, Voice, and Loyalty》(1970)。Hirschman 说,当组织/产品质量下降时,成员有两种反应——退出(exit,换供应商)和呼声(voice,反馈施压)。这个框架精确地照出了模型供应链的权力不对称:
在传统软件供应链里,依赖方两条路都通——锁版本拒绝升级(一种 exit),或在 GitHub 提 issue 施压(voice)。但在模型软漂移场景下,两条路都被结构性削弱:exit 受制于迁移成本(60% 补丁要重写)+ 跨厂商 prompt 不兼容,被锁定者退不出去;voice 则因为”你甚至不知道供应商改了什么”而失效——没有 changelog,你的反馈连”针对哪次变更”都说不清。GPT-4o 谄媚事件里 voice 罕见地奏效(用户大规模投诉迫使 4 天回滚),恰恰因为那次漂移症状极其外显、舆论压力够大;绝大多数细微漂移(素数识别从 84% 到 51% 这种)不会触发足够的 voice,依赖方只能默默吞下。
这把判断从”技术问题”升格为”权力问题”:模型供应链的时间性风险,本质是依赖方既退不出、又喊不响的双重失语。这与 Rick 在滴滴的一手经验同构——见 §9 升级对照。
§8 PM 决策启示:面试 / 选型 / 复现三类落地
面试桌:被问”如何评估对某 LLM 供应商的依赖风险”,30 秒答法——“我看两条线:硬弃用看官方退役政策和预告期(OpenAI GA 6 个月、preview 2 周),把在用快照退役日期上风险登记册;软漂移看我有没有内嵌回归评测基线(200–500 条生产样本周跑)。最致命的认知误区是把别名当快照、把 endpoint 替换当迁移成本——真实迁移大头是重写 60% 的旧模型行为补丁。”
选型会:建立”供应链时间性”评分维度——(1) 是否提供带日期戳的快照;(2) 弃用预告期长度;(3) 是否有权重保存/可复现承诺(Anthropic 加分);(4) 该模型历史漂移记录。把”峰值能力”和”行为稳定性”分两栏打分,受监管业务后者权重更高。
复现台:任何要复现的 LLM 实验/产品行为,强制记录”四元组”——model snapshot ID + 评估日期 + temperature + system prompt 版本,禁用裸别名。这一条直接来自学术复现危机的教训(arXiv:2510.25506 零篇完整复现)。
§9 与已有节点的关系
- 对照 m209 - 推理成本控制手册:m209 讲”如何把推理成本压下来”,本节点做补缺——成本优化常推动”追新模型/换更便宜模型”,而本节点指出每次切换都要付迁移代价(model inertia 的隐性成本恰是 m209 优化的另一面)。不复述 m209 的价格表与路由策略,只补”切换有摩擦”这一维。
- 对照 0412 评测/回归专题:本节点的”内嵌回归评测基线”是 0412 回归测试思想在供应链时间性场景的具体落地,做深化。
- 对照 0413 成本专题:model inertia 年损耗案例是成本与时间性的交叉点,做对话。
- 对照 0421 机制专题与 0416 失败专题:谄媚事故的根因(新奖励信号覆盖护栏)是 RLHF 机制层失败的实例,做纠偏——证明”行为漂移”不是玄学,有可追溯的训练机制根因。
- 升级对照 Rick 滴滴经验:本节点 §7 的”退出—呼声双重失语”框架,是 Rick 在滴滴双边市场观察到的”平台政策突变致司机行为突变、司机退不出也喊不响”经验向 AI 供应链的迁移(详见本专题 E03)。AI 比平台政策更极端——平台政策变更至少有通知,模型更新连完整 changelog 都没有。
§10 关联节点
核心(必读)
延伸(可选)
- Scaling Laws
- 0117社会学
- AI PM 知识图谱·总索引
- 本专题同级:E02、E03(平台政策突变类比迁移)
- 本专题 03 架构剖面、05 复现指南(版本钉选实操)
待建概念清单(本节点触及、主库暂无独立概念页,降级为普通文本,登记待建)
- 行为漂移 / Behavioral Drift(散见,无独立概念卡)
- 静默更新 / Silent Update
- 版本钉选 / Version Pinning(快照 vs 别名)
- 模型弃用政策 / Model Deprecation Policy
- model inertia / 模型惰性
- thin wrapper / 薄壳应用
- 退出—呼声—忠诚 / Hirschman Exit-Voice-Loyalty(可链 0133 经济学或 0117 社会学,待核实索引规范名)
- 〔跨专题待建〕
0412 评测专题—— 主库暂无实体节点,§4 错位四回归测试处引用已降级为普通文本,本专题内对应 R01 模型更新回归测试机制,待 0412 入库后回链
修订日志
- R1(2026-06-07):首稿。建立”供应链中断”框架(§0);两类突变拆分(§1);硬弃用(Sensible/OpenAI)与软漂移(Chen et al. / GPT-4o 谄媚)双案例(§2–§3);四件套判断主轴(§4);三盲点(§5);三对手立场 + Hirschman 跨域(§6–§7);三类落地(§8);升级对照(§9)。所有硬事实接地到 arXiv ID / OpenAI 官方文档 / 公司博客;单一来源数字(Divyam.ai $333K)已标注谨慎引用。