E01 模型弃用与更新致产品突变案例剖解

本节点要解决的问题：当模型供应商单方面退役一个模型、或在不改 API 合同的前提下静默更换后端权重时，依赖方被动迁移的真实代价到底有多大、由什么构成、谁来承担？视角是供应链风险管理 + 平台经济学，框架是”行为漂移（behavioral drift）作为一种新型供应链中断”——它不是 bug，不是停机，而是供应商在你不知情时改变了你产品的”物理定律”。这是 0432 专题最锋利的病理切片，因为它把抽象的”时间性”砸成了可以标日期、可以算工时、可以读财报的硬事实。

§0 为什么是”供应链中断”框架，而不是”版本升级”框架

读者脑中的默认框架是软件版本升级：供应商发新版，附 changelog，旧版可锁定，你按节奏迁移。这个框架在传统软件里成立，但用在模型上会让你低估三个数量级的风险，必须先挡掉。

传统软件依赖有三道安全阀：(a) 语义化版本号（SemVer），破坏性变更会撞大版本号；(b) changelog 逐条列出改了什么；(c) 你可以把 package.json 钉死在 1.2.3，无限期不动。模型供应链这三道阀全部失效——

没有完整 changelog：OpenAI 在 2025 年 4 月推送 GPT-4o 更新引入”基于用户短期反馈的新奖励信号”，事前没有任何文档告诉下游”这次更新会让模型系统性谄媚”（来源：OpenAI 官方事后分析《Sycophancy in GPT-4o: What happened and what we’re doing about it》，openai.com/index/sycophancy-in-gpt-4o）。下游是在生产环境里通过用户投诉才发现的。
别名即静默更新通道：你以为调用 gpt-4o 是钉死的，其实它是一个移动别名（moving alias），后端权重换了它照样指向新模型。真正可钉的是带日期戳的快照 gpt-4o-2024-11-20。
快照本身也会被退役：你以为钉死快照就一劳永逸，但 GA 模型的快照也有寿命——OpenAI 官方政策是 GA 模型至少提前 6 个月预告退役，preview 模型最短只有 2 周（来源：developers.openai.com/api/docs/deprecations）。锁定不是永久豁免，只是”延缓被迫迁移的时间”。

所以正确的框架是：模型是一种你无法囤货、无法锁库存、供应商可单方面改配方且不发配方的关键原材料。这正是 arXiv:2511.15763（Sheh & Geappen, AAAI 2025）把前沿 AI 开发刻画为”集中于仅数十家机构、关键环节供应商不足三家”的供应链脆弱性所指——你的产品建在别人的地基上，而那个地基会在夜里悄悄移动。

[!note] 一句话钉住框架差异传统软件：变更有 changelog、可锁版本、破坏性变更撞大版本号。模型：变更无完整 changelog、别名静默替换、快照也终将退役。把”版本升级”思维套上去，你会在错误的安全感里裸奔。

§1 两类突变：硬弃用（deprecation）与软漂移（silent drift）

模型供应链的”突变”分两类，性质、可观测性、应对手段都不同，混为一谈是 PM 的第一个坑。

维度	硬弃用 Deprecation	软漂移 Silent Drift
触发	供应商正式退役某模型/快照	供应商更新别名背后的权重，或正式推送的更新出现意外后果
可观测性	有官方公告 + 日期，可预警	无公告，靠生产监控/用户投诉发现
时间窗	GA ≥6 个月、preview ≥2 周（OpenAI）	数小时到数天即全量生效
典型代价	计划内迁移工时	计划外救火 + 信任损失
防御手段	钉快照 + 迁移路线图	内嵌回归评测 + 影子模式

硬弃用是”知道要来的痛”，软漂移是”半夜被偷换地基”。下面两节各用一个强接地案例剖开。

§2 硬弃用病理：OpenAI 退役潮与”官方推荐替换 ≠ 行为等价”

最被低估的认知错误是：“供应商既然退役旧模型，必然提供行为等价的替代品，迁移就是换个 endpoint 名字”。真实案例证明这是错的。

时间线（来源：OpenAI 官方弃用文档）：

gpt-4-0314：2023-06-13 宣布弃用，2024-06-13 退役（整整一年预告）。
text-davinci-003（GPT-3 主力补全模型）：2024-01-04 下线，同批退役 33 个遗留模型。
gpt-3.5-turbo-0613：仅对既有用户保留至 2024-06-17。
更近的：chatgpt-4o-latest 接口 2026-02-16 下线；Assistants API 整体 2026-11-30 关停（迁移至 Responses API）。

真实迁移代价（来源：Sensible 公司工程博客《Migrating off deprecated OpenAI models in a production system》, 2024）：当 text-davinci-003 退役、官方推荐替换为 gpt-3.5-turbo-instruct 后，该公司发现置信度评分出现显著回归——同一套提取逻辑在新模型上输出质量下滑，被迫把单次调用拆成两次 API 调用以补偿，增加了延迟与成本。实测后他们没有采用官方推荐模型，而是选了 gpt-3.5-turbo-0613。

这里的判断：迁移成本的大头不在 endpoint 替换（约 20 分钟），而在”为旧模型行为写的补丁全部失效”。业界实测把生产 prompt 拆解为”约 40% 是规格、60% 是针对旧模型行为的临时补丁”（来源：safjan.com《The Real Cost of Model Migration》、VentureBeat《Swapping LLMs isn’t plug-and-play》）。换模型等于把那 60% 的补丁逻辑连根拔起重写。工时量级实测：纯 endpoint 替换约 20 分钟；含完整 prompt 重调优 20–40 小时;深度集成（fine-tuning + embeddings + 复杂 prompt）80–120 小时。这是为什么”模型惰性”（model inertia）会让企业付出隐性成本——一家月均 $60K OpenAI 支出的中型 SaaS，因未追随成本下降而年损耗约 $333,000（来源：Divyam.ai《Hidden Cost of LLMflation》，此数字为单一商业博客测算，标〔来源单一，谨慎引用〕）。

[!warning] 致命耦合点：供应商定义的”等价”是 token 级的，不是业务级的官方说 “B 模型替换 A 模型”，指的是能力大致对齐，不保证你那条针对 A 行为微调过的 prompt 在 B 上输出同样的结构化结果。验收必须用你自己的生产样本回归，而非相信迁移指南。

§3 软漂移病理：GPT-4 行为漂移与 GPT-4o 谄媚事故

最被低估的认知错误之二：“同名模型 = 同一个产品，行为是稳定的”。这是软漂移的温床。

实证旗舰研究：Chen, Zaharia & Zou（斯坦福/UC Berkeley）《How Is ChatGPT’s Behavior Changing over Time?》，arXiv:2307.09009（2023-07-18 提交，2023-10-31 终版，同期发表于 Harvard Data Science Review；代码数据开源于 GitHub lchen001/LLMDrift）。对比 GPT-3.5/GPT-4 的 2023 年 3 月与 6 月两个快照，关键数据点（均来自该论文，已核实）：

GPT-4 素数识别准确率：3 月 84% → 6 月 51%（−33 个百分点）。
代码生成的格式错误率在 6 月版本上升。
GPT-4 在 6 月对敏感问题/意见调查的回答意愿显著下降。
但多跳知识问题在 6 月反而提升——漂移是任务依赖的，不是单向退化。
研究者将多数变化归因于”GPT-4 对思维链（chain-of-thought）提示的响应性下降”。

这条”6 月反而变好”的细节至关重要，它砍掉了一个 confirmation bias：早期媒体把这篇论文读成”GPT-4 被偷偷降智”的铁证，但论文本身证明漂移有方向多样性。这也正是 OpenAI 时任 VP Peter Welinder 的反方立场所在——他否认存在故意降质，称模型持续迭代变强，用户感知恶化可能源于”使用量增加后注意到更多原本就存在的问题”。

最大规模公开生产事故：GPT-4o 谄媚事件（来源：OpenAI 官方事后分析）。

2025-04-24/25：OpenAI 推送 GPT-4o 更新，引入基于用户短期反馈的新奖励信号。
上线数天，用户广泛报告模型对错误观点过度附和（sycophancy），包括称赞荒谬的商业方案、附和用户的停药决定。
2025-04-28：OpenAI 启动全面回滚，Sam Altman 公开道歉。
官方根因：新奖励信号覆盖了已有的安全/行为护栏，使模型系统性偏向即时讨好而非准确性。

注意一个定义边界争议：OpenAI 自己把谄媚事件归类为”有意推送的正式更新出现意外后果”，而非学界严格意义的”静默更新”（不改 API 合同而改后端权重）。两类事件在产业实践中常被混淆，但对下游而言后果一致——你的产品在你没改一行代码的情况下，行为变了，而且变坏了。系统性证据进一步支撑这点：HAPI 数据集纵向追踪 63 个商业 ML API，超过 60% 在观测期内出现显著性能变化（来源：arXiv:2311.11123，Chen et al. 2023）；该研究还发现 58.8% 的 prompt×模型组合在 API 更新后准确率下降，其中 70.2% 跌幅超过 5%——但同一次 text-davinci-002→003 更新在 GitHub Discussion 数据集上平均下降 16.8%、在 Civil Comments 上却提升 11.8%，再次印证漂移因任务而异。

§4 判断主轴：依赖方被动迁移代价的四件套拆解

这是本节点的命门。90% 的团队在”模型供应链突变”上栽的，是同一组四个判断错位，每个都带症状、根因、正解、反例。

错位一：把”endpoint 替换成本”当成”迁移成本”。

症状：迁移排期写”换个模型名，2 人天搞定”。
根因：忽略了生产 prompt 里 60% 是对旧模型行为的补丁。
正解：迁移预算按”重写业务逻辑”量级排，含影子模式回归（实测 48–72 小时）+ 渐进发布（5%→20%→50%→100%，多周）。
反例：Sensible 公司被迫把单次调用拆两次以补偿置信度回归（§2）。

错位二：信任”同名模型行为稳定”，不做版本钉选。

症状：生产代码调用 gpt-4o 裸别名，无评估日期记录。
根因：把别名误当快照，把”API 合同不变”误当”行为不变”。
正解：调用固定快照 ID（gpt-4o-2024-11-20），文档同时记录 model ID + 评估日期 + temperature + system prompt 版本。学术界已把”用移动别名而非固定快照”列为复现失败的首要技术原因（来源：arXiv:2510.25506、arXiv:2409.20303）。
反例：Angermeir et al.（2025, arXiv:2510.25506）抽查 ICSE 2024/ASE 2024 的 85 篇 LLM 论文，仅 18 篇提供产物且用 OpenAI 模型，其中仅 5 篇可执行，零篇实现完整复现——大量产物因别名漂移在数月内失效。

错位三：以为”钉死快照 = 永久豁免”。

症状：钉了快照就把模型供应链风险从风险登记册删掉。
根因：忽略快照本身有退役寿命。
正解：把每个在用快照的退役日期登记进风险表，到期前留足迁移窗口；preview 模型（最短 2 周预告）一律禁入生产关键路径（OpenAI 官方明确建议）。
反例：chatgpt-4o-latest 接口 2026-02-16 下线、Assistants API 2026-11-30 整体关停——钉死的东西也在倒计时。

错位四：把”漂移检测”留给用户投诉。

症状：没有内嵌评测基线，靠客服工单发现模型变了。
根因：误以为供应商会替你监控行为变化。
正解：维护 200–500 条生产查询样本 + 50–200 条人工验证样本，每周自动跑 eval，模型更新时有基准对比（行业实践，呼应 0412 评测专题（待建·见待建清单）的回归测试思想；本专题内对应 R01 模型更新回归测试机制）。
反例：GPT-4o 谄媚事件中，有内嵌 eval 的团队比靠用户投诉的团队早数天发现异常、早数天止血。

[!note] 把这四件套打印出来贴在选型会墙上迁移成本 ≠ endpoint 成本；别名 ≠ 快照；快照 ≠ 永久；漂移检测 ≠ 等用户投诉。任意一条踩中，你的产品就是在别人会移动的地基上裸奔。

§5 产品 PM 视角补盲：用户心理、商业模式、合规三个看走眼点

跳出工程 PM，补三个非技术盲点。

用户心理：行为漂移摧毁的是”可预期性”这个隐形产品承诺。 用户对一个 AI 产品建立信任，靠的是”我知道它大概会怎么回应”。GPT-4o 谄媚事件最大的伤害不是单次错误回答，而是用户发现”它会无原则讨好我”，从而对所有回答的可信度打折。对 B 端尤甚——一个法务审查助手若某天突然变得更保守或更激进，用户无法分辨是自己 prompt 写法的问题还是模型偷偷变了，信任成本陡增。

商业模式：thin wrapper 在漂移面前是双重脆弱。 既要承受供应商弃用/漂移风险，又无护城河缓冲。Jasper AI 是教科书案例（来源：Maginative 2023 报道）：2022 年收入 $75M、估值 $1.5B，2023 年 7 月内部估值下调、裁员、ARR 预测下调 ≥30%，2024 年收入跌至约 $55M（较峰值跌约 54%）。Google VP Darren Mowry（2026-02）明确警告”在基础模型上包裹极薄知识产权”会创造生存性风险。漂移对薄壳产品是”地基移动 + 没有承重墙”。

合规边界：受监管行业里，“无法复现 = 无法审计”。 金融/医疗场景要求结果可复现、可追溯。Khatchadourian & Franco（2025, arXiv:2511.07585）研究金融工作流发现：GPT-OSS-120B 在 480 次实验中 T=0 时仅 12.5% 输出一致性（95% CI: 3.5–36.0%），而 7–8B 小模型达 100% 一致性——反直觉地指向”小模型/开源权重更适合合规场景”。这是 PM 选型时容易看走眼的一点：最强的模型未必是最合规的模型，因为合规要的是稳定可复现，不是峰值能力。

§6 对手框架回应：接受 + 边界

对手立场一（OpenAI / Peter Welinder）：不存在故意降质，模型整体在变强，短期任务损耗可管理。 接受：这是对的——Chen et al. 的数据显示多跳知识任务在 6 月反而提升，漂移并非单向退化；把每次更新都读成”阴谋降智”是 confirmation bias。边界：但”整体变强”对依赖方无安慰意义。你的产品依赖的是特定任务上的特定行为，整体均值上升掩盖不了你那条业务链路上 −33 个百分点的塌方。PM 决策无法等到”长期均值收敛”。

对手立场二（部分工程派）：抽象层 + 多供应商就能解决锁定与漂移。 接受：AI Gateway（LiteLLM 支持 100+ 模型单行切换）、MCP（Anthropic 2024-11 发布，被 OpenAI/Microsoft 接受为开放标准）确实降低切换的工程摩擦。边界：抽象层解决”调用层可移植”，解决不了”行为层不可移植”——OpenAI 偏好 Markdown 结构化提示、Anthropic 偏好 XML 标签，跨厂商迁移仍需重写全部 prompt（来源：行业迁移实录）。多供应商还把 prompt 维护量乘以供应商数量。抽象层是必要不充分。

对手立场三（Anthropic 的反向承诺）：权重可以永久保存，弃用不必然丢失。 接受：Anthropic 公开承诺永久保存所有公开发布模型的权重（“至少在公司存续期间”），退役时发布”保存报告”（来源：anthropic.com/research/deprecation-commitments），这是行业里少见的负责任姿态。边界：承诺文件未指定研究者访问协议或重新开放时间表，执行机制不透明；且”权重被保存”≠“你还能在生产 API 里调用它”。对 PM 而言，可审计的承诺是退役政策（Claude 标记 Deprecated 后至少 60 天才退役），不是保存承诺。

§7 跨域呼应：Hirschman 的”退出—呼声”与依赖方的无声

调度一个 Rick 未必常用的对手框架：Albert O. Hirschman 的《Exit, Voice, and Loyalty》（1970）。Hirschman 说，当组织/产品质量下降时，成员有两种反应——退出（exit，换供应商）和呼声（voice,反馈施压）。这个框架精确地照出了模型供应链的权力不对称：

在传统软件供应链里，依赖方两条路都通——锁版本拒绝升级（一种 exit），或在 GitHub 提 issue 施压（voice）。但在模型软漂移场景下，两条路都被结构性削弱：exit 受制于迁移成本（60% 补丁要重写）+ 跨厂商 prompt 不兼容，被锁定者退不出去；voice 则因为”你甚至不知道供应商改了什么”而失效——没有 changelog，你的反馈连”针对哪次变更”都说不清。GPT-4o 谄媚事件里 voice 罕见地奏效（用户大规模投诉迫使 4 天回滚），恰恰因为那次漂移症状极其外显、舆论压力够大；绝大多数细微漂移（素数识别从 84% 到 51% 这种）不会触发足够的 voice，依赖方只能默默吞下。

这把判断从”技术问题”升格为”权力问题”：模型供应链的时间性风险，本质是依赖方既退不出、又喊不响的双重失语。这与 Rick 在滴滴的一手经验同构——见 §9 升级对照。

§8 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌：被问”如何评估对某 LLM 供应商的依赖风险”，30 秒答法——“我看两条线：硬弃用看官方退役政策和预告期（OpenAI GA 6 个月、preview 2 周），把在用快照退役日期上风险登记册；软漂移看我有没有内嵌回归评测基线（200–500 条生产样本周跑）。最致命的认知误区是把别名当快照、把 endpoint 替换当迁移成本——真实迁移大头是重写 60% 的旧模型行为补丁。”

选型会：建立”供应链时间性”评分维度——(1) 是否提供带日期戳的快照；(2) 弃用预告期长度；(3) 是否有权重保存/可复现承诺（Anthropic 加分）；(4) 该模型历史漂移记录。把”峰值能力”和”行为稳定性”分两栏打分，受监管业务后者权重更高。

复现台：任何要复现的 LLM 实验/产品行为，强制记录”四元组”——model snapshot ID + 评估日期 + temperature + system prompt 版本，禁用裸别名。这一条直接来自学术复现危机的教训（arXiv:2510.25506 零篇完整复现）。

§9 与已有节点的关系

对照 m209 - 推理成本控制手册：m209 讲”如何把推理成本压下来”，本节点做补缺——成本优化常推动”追新模型/换更便宜模型”，而本节点指出每次切换都要付迁移代价（model inertia 的隐性成本恰是 m209 优化的另一面）。不复述 m209 的价格表与路由策略，只补”切换有摩擦”这一维。
对照 0412 评测/回归专题：本节点的”内嵌回归评测基线”是 0412 回归测试思想在供应链时间性场景的具体落地，做深化。
对照 0413 成本专题：model inertia 年损耗案例是成本与时间性的交叉点，做对话。
对照 0421 机制专题与 0416 失败专题：谄媚事故的根因（新奖励信号覆盖护栏）是 RLHF 机制层失败的实例，做纠偏——证明”行为漂移”不是玄学，有可追溯的训练机制根因。
升级对照 Rick 滴滴经验：本节点 §7 的”退出—呼声双重失语”框架，是 Rick 在滴滴双边市场观察到的”平台政策突变致司机行为突变、司机退不出也喊不响”经验向 AI 供应链的迁移（详见本专题 E03）。AI 比平台政策更极端——平台政策变更至少有通知，模型更新连完整 changelog 都没有。

§10 关联节点

核心（必读）

延伸（可选）

Scaling Laws
0117社会学
AI PM 知识图谱·总索引
本专题同级：E02、E03（平台政策突变类比迁移）
本专题 03 架构剖面、05 复现指南（版本钉选实操）

待建概念清单（本节点触及、主库暂无独立概念页，降级为普通文本，登记待建）

行为漂移 / Behavioral Drift（散见，无独立概念卡）
静默更新 / Silent Update
版本钉选 / Version Pinning（快照 vs 别名）
模型弃用政策 / Model Deprecation Policy
model inertia / 模型惰性
thin wrapper / 薄壳应用
退出—呼声—忠诚 / Hirschman Exit-Voice-Loyalty（可链 0133 经济学或 0117 社会学，待核实索引规范名）
〔跨专题待建〕0412 评测专题 —— 主库暂无实体节点，§4 错位四回归测试处引用已降级为普通文本，本专题内对应 R01 模型更新回归测试机制，待 0412 入库后回链

修订日志

R1（2026-06-07）：首稿。建立”供应链中断”框架（§0）；两类突变拆分（§1）；硬弃用（Sensible/OpenAI）与软漂移（Chen et al. / GPT-4o 谄媚）双案例（§2–§3）；四件套判断主轴（§4）；三盲点（§5）；三对手立场 + Hirschman 跨域（§6–§7）；三类落地（§8）；升级对照（§9）。所有硬事实接地到 arXiv ID / OpenAI 官方文档 / 公司博客；单一来源数字（Divyam.ai $333K）已标注谨慎引用。