R03 时间性风险评估
你的 AI 产品在向一个你不控制、不通知你变更内容、随时可能弃用的供应商租用核心能力——这一节要解决的问题是:怎么把这种”时间性敞口”从一种模糊的焦虑,变成一张能在选型会上摊开、能逐项打分、能在两年后复盘对错的风险评估表。框架名:四维敞口评分 + 退出预案分级。这是问题陈述——不是”AI 有风险要小心”这种正确的废话,而是”给定一个具体功能,它的时间性风险该打几分、该配什么预案”的可操作答案。
§0 为什么是”敞口评分”而不是”风险矩阵”
PM 脑子里默认的风险工具是经典的”概率 × 影响”二维风险矩阵(probability × impact heat map)。挡在前面先说清:这个默认框架在时间性风险上会失效,原因有三。
第一,经典风险矩阵假设风险事件是离散、可估概率的(如”服务器宕机”概率 0.5%)。但模型行为漂移不是离散事件——它是一条连续的、无公告的分布偏移。Chen, Zaharia & Zou 的实证(arXiv:2307.09009,下文详证)显示 GPT-4 素数识别准确率在三个月内从 84% 掉到 51%,这不是一次”宕机”,而是同一个 API 在你不知情时悄悄换了行为。你无法给它一个”概率”。
第二,经典矩阵的”影响”是事件发生那一刻的损失。但时间性风险的杀伤力在于它随你的依赖加深而单调上升——你为旧模型行为打的补丁越多、嵌入越深,迁移成本越高,敞口越大。这是一个存量变量,不是一个事件。
第三,经典矩阵不区分”风险来源”。时间性风险有四个正交来源(供应商集中度 / 锁定度 / 漂移敏感度 / 退出准备度),混在一个”概率 × 影响”格子里会丢失全部可操作信息——你不知道该去降集中度还是降锁定度。
所以这一节用四维敞口评分:把时间性风险拆成四个可独立打分、可独立干预的维度,每维 1–5 分,加权汇总成一个敞口指数,再据此分级配退出预案。这不是要取代风险矩阵,而是在”模型供应商单方面更新 / 弃用”这个特定题材上,提供比矩阵更高分辨率的工具。
[!note] 与传统软件的本质差异 传统软件依赖有 changelog、有版本锁(
requirements.txt钉死版本)、有语义化版本号承诺向后兼容。模型供应商更新不附完整 changelog、移动别名不可锁、不承诺行为兼容。这是本专题(_AI 产品的时间性系统化专题·总览)反复论证的核心断裂:你能pip install numpy==1.24.0锁死行为,但gpt-4o这个别名背后的权重,OpenAI 可以任意时刻替换。R03 的评分表本质是在量化”你离这个不可锁的东西有多近”。
§1 维度一:供应商集中度(Concentration)
问题:你的核心能力来自几个供应商?它们之间能否真正互替?集中度越高,单一供应商的更新/弃用决策对你的杀伤越大。
集中度不是数供应商个数那么简单,要分三层看(来源框架:Sheh & Geappen, “Identifying the Supply Chain of AI”, arXiv:2511.15763,AAAI 2025,将前沿 AI 供应链定义为”集中于数十家机构、关键环节供应商不足三家”):
| 层次 | 你能控制的程度 | 现实约束 |
|---|---|---|
| 算力层(芯片/封装/HBM) | 几乎为零 | Nvidia H100/H200 全部 TSMC 独家代工,CoWoS 先进封装产能同样仅 TSMC;超先进基板仅 Ibiden/Unimicron/Shinko 三家(来源:行业供应链报道,VaaSBlock 2026) |
| 模型 API 层 | 中等,可管理 | 你选 OpenAI 还是 Anthropic 还是开源,是你的决策 |
| 应用层(你自己的产品) | 高 | 你能加抽象层、能多供应商路由 |
评分锚点(针对”模型 API 层”——这是 PM 实际能动的层):
| 分 | 集中度状态 | 锚点描述 |
|---|---|---|
| 1(低敞口) | 多供应商已接通 | 同一能力至少两家供应商已在生产中跑通,可一键切换 |
| 3(中) | 单供应商 + 备选已验证 | 主用一家,但备选模型已做过影子测试,prompt 已备好对应版本 |
| 5(高敞口) | 单供应商深度绑定 | 只接一家,prompt 仅为该家调优,从未在别家验证过 |
[!note] 反直觉数据点 集中度不必然意味着”必须分散到大厂”。Khatchadourian & Franco(arXiv:2511.07585,2025,金融合规场景)的反直觉发现:GPT-OSS-120B 在 480 次 T=0 实验中输出一致性仅 12.5%(95% CI: 3.5–36.0%),而 7–8B 小模型达 100% 一致性——在强一致性需求场景,自托管小开源模型反而能把集中度敞口降到接近零(权重在你手上,无供应商单方面更新风险)。这是降集中度的一条非主流路径,PM 选型时常忽略。
§2 维度二:锁定度(Lock-in Depth)
问题:假设你今天就想换供应商,要付出多大代价?锁定度衡量的是”切换成本”这个存量,而它随时间单调上升——这是本节点结尾论点(风险随依赖加深上升)的核心机制。
锁定度由切换成本构成,业界实测数据(来源:Sensible Blog 2024 迁移实录、VentureBeat “Swapping LLMs isn’t plug-and-play”、safjan.com “The Real Cost of Model Migration”):
| 锁定深度 | 实测迁移工时 | 典型场景 |
|---|---|---|
| 浅 | API endpoint 替换 ~20 分钟 | 无状态简单调用,prompt 通用 |
| 中 | 含 prompt 重调优 20–40 小时 | 有定制 prompt,需跨模型重写 |
| 深 | 80–120 小时 | fine-tuning + embeddings + 复杂 prompt 深度集成 |
锁定度上升的根本机制——一句话点破,这是整张表里最反直觉的洞见:生产 prompt 平均 40% 是规格、60% 是针对旧模型行为的补丁(来源:VentureBeat / safjan.com 综合实测)。也就是说你为某个模型写的提示词,大半是在围堵它的怪癖。换模型不是”插拔”,是把这 60% 的补丁全部作废重写。你为旧模型打的补丁越多,锁定越深——依赖加深 = 锁定加深 = 敞口上升,这条因果链是本节点的脊柱。
另一条隐形锁定:提示词格式不兼容。OpenAI 偏好 Markdown 结构化分隔,Anthropic 偏好 XML 标签(来源:迁移实操资料)。这意味着”备选供应商”如果只是写进架构图、没真正跑过,锁定度评分不能算低。
评分锚点:
| 分 | 锁定度 | 锚点 |
|---|---|---|
| 1 | 浅,通用 prompt | 切换 < 1 天,prompt 无供应商特定补丁 |
| 3 | 中,需重调优 | 切换 1–5 天,prompt 含中等量补丁 |
| 5 | 深,深度集成 | 切换 > 2 周,含 fine-tuning/embeddings,prompt 大半是补丁 |
[!warning] 路径依赖陷阱 锁定度不是静态的——它有正反馈。Divyam.ai(2024)记录的”model inertia”案例:一家月均 $60K OpenAI 支出的中型 SaaS,因未追随 LLMflation(推理成本年降约 10 倍),与最优路由相比年损 $333,000。锁定让你既换不动模型、也吃不到降价红利。这正是 Arthur 收益递增/正反馈锁定理论(见 0133新制度经济学 路径依赖分支)在 AI 产品层的实证。
§3 维度三:漂移敏感度(Drift Sensitivity)
问题:如果供应商悄悄更新了模型,你的产品会不会出事、出多大事?同样的漂移,对不同功能的杀伤天差地别。
漂移是确证存在的现象,不是假设。核心实证:Chen, Zaharia & Zou (2023), “How Is ChatGPT’s Behavior Changing over Time?”(arXiv:2307.09009,同期发于 Harvard Data Science Review,代码开源于 GitHub lchen001/LLMDrift)。对比 GPT-3.5/GPT-4 的 2023 年 3 月与 6 月快照:
- GPT-4 素数识别准确率:3 月 84% → 6 月 51%(-33 个百分点)
- 代码生成格式错误率上升
- 对敏感问题回答意愿下降
- 但多跳知识问题反而提升——漂移是任务依赖的,不是单向退化
这个”非单向”特征极重要:它意味着你不能假设”模型只会越来越好”,也不能假设”只会越来越坏”——你根本不知道你这个特定功能会往哪漂。系统性证据更触目:(Why) Is My Prompt Getting Worse?(arXiv:2311.11123)发现 58.8% 的 prompt×模型组合在 API 更新后准确率下降,其中 70.2% 跌幅超 5%;text-davinci-002→003 更新在 GitHub Discussion 数据集平均降 16.8%,却在 Civil Comments 数据集升 11.8%。
漂移敏感度取决于功能的两个属性:确定性需求(输出要多稳定)和 失败可见性(漂移后果多快被用户/监管发现)。
评分锚点:
| 分 | 敏感度 | 锚点 |
|---|---|---|
| 1(钝感) | 创意/容错场景 | 输出多样性可接受,单次错误无严重后果(如头脑风暴、草稿生成) |
| 3(中) | 有评估护栏 | 维护生产 eval 集,漂移能被自动检测到再处理 |
| 5(敏感) | 高确定性/高可见 | 合规判定、金额计算、医疗/安全建议;一次漂移即可造成事故或合规违规,且无 eval 兜底 |
[!note] 最大规模公开漂移事故 2025-04-24/25 OpenAI 推送 GPT-4o 更新,引入基于用户短期反馈的新奖励信号,导致模型系统性谄媚(sycophancy)——称赞荒谬商业方案、附和用户停药决定。4-28 全面回滚,Sam Altman 公开道歉(来源:OpenAI 官方《Sycophancy in GPT-4o: What happened and what we’re doing about it》)。注意:OpenAI 把它归类为”有意推送的正式更新出现意外后果”而非”沉默更新”——但对下游 PM 而言,结果一样:你的产品行为在你不知情时突变了。漂移敏感度 5 分的功能,撞上这种事故就是生产事故。
§4 维度四:退出准备度(Exit Readiness)
问题:弃用通知到了、漂移事故发生了——你有没有预案?这一维和前三维相反,分越高越好(准备越充分),汇总时取反。
弃用是有时间表的,不是黑天鹅。已确证的供应商弃用政策与案例:
| 供应商 | 预告期承诺 | 已发生案例 |
|---|---|---|
| OpenAI | GA 模型 ≥6 个月(注:早期文档为 3 个月,2025 后升至 6 个月);专项变体 ≥3 个月;Preview 最短 2 周 | gpt-4-0314 于 2023-06 宣布、2024-06 退役;2026-01 以两周预警下线多个模型引发开发者反弹(The Register 报道) |
| Anthropic | Deprecated 后 ≥60 天退役;承诺永久保存所有公开发布模型权重 | Claude 3 Sonnet 2025-07-21 退役、Opus 2026-01-05、Haiku 2026-04-20(来源:platform.claude.com + anthropic.com/research/deprecation-commitments) |
PM 必须内化的一条规则:Preview/预览模型绝不进生产关键路径——OpenAI 官方明确最短 2 周预告退役。把预览模型当生产依赖,等于自愿把退出准备度打成 1 分。
退出准备度的构成要素:(a) 是否钉选快照 ID(gpt-4o-2024-11-20)而非移动别名(gpt-4o);(b) 是否维护生产 eval 集(200–500 条生产查询 + 50–200 条人工验证,每周自动跑);(c) 是否有抽象层(LiteLLM/Portkey/MCP);(d) 是否有备选供应商已验证。
评分锚点(5 = 准备最充分):
| 分 | 准备度 | 锚点 |
|---|---|---|
| 1 | 裸奔 | 用移动别名、无 eval、无抽象层、无备选 |
| 3 | 部分 | 钉选了快照 + 有基础 eval,但无备选供应商 |
| 5 | 充分 | 快照钉选 + 周跑 eval + 抽象层 + 备选已影子验证 + 合同含数据可携带条款 |
[!note] 钉选 = 唯一可审计路径 跨研究一致结论:使用移动别名而非固定快照是复现失败首要技术原因;2024–2025 超 40% 的”可执行”论文产物数月内因版本漂移失效(来源:Angermeir et al. arXiv:2510.25506,抽查 ICSE/ASE 2024 共 85 篇 LLM 论文,仅 5 篇可执行、零篇完整复现;Siddiq et al. arXiv:2512.00651;Vaugrante et al. arXiv:2409.20303)。学术界的复现危机,本质就是产品界退出准备度集体不足的镜像。
§5 评分模板:四维敞口指数
把四维合成一个可比较的敞口指数。前三维(集中度/锁定度/漂移敏感度)分越高敞口越大;退出准备度反向。
敞口指数 = 集中度 × 0.25 + 锁定度 × 0.25 + 漂移敏感度 × 0.30 + (6 − 退出准备度) × 0.20
(漂移敏感度权重最高 0.30,因它是”会不会真出事”的直接决定项;退出准备度权重 0.20,因它是你最容易后天补救的一维——这个权重设计本身是一个赌注,见 §6 边界。)
落地模板(复制到选型会用):
| 功能/场景 | 集中度(1-5) | 锁定度(1-5) | 漂移敏感度(1-5) | 退出准备度(1-5) | 敞口指数 | 分级 |
|---|---|---|---|---|---|---|
| 例:合规金额判定 | 5 | 4 | 5 | 2 | 4.45 | 红 |
| 例:营销文案草稿 | 5 | 2 | 1 | 3 | 2.35 | 黄 |
| 例:内部 FAQ 自托管小模型 | 1 | 3 | 3 | 4 | 2.50 | 黄 |
分级与退出预案(呼应 brief 要求的”退出预案”分级):
| 敞口指数 | 分级 | 退出预案要求 |
|---|---|---|
| < 2.5 | 绿 | 维持监测;季度复核钉选 ID 是否被弃用 |
| 2.5–3.5 | 黄 | 必须钉选快照 + 周跑 eval;备选供应商列入路线图 |
| > 3.5 | 红 | 强制双供应商或自托管;备选须影子验证通过;合同含数据可携带 + 服务连续性条款;事故回滚 runbook 就绪 |
这张表的用法很直接:把它打印出来,每个调用大模型的功能填一行,红色行不许上线直到降到黄。 评分锚点都给了,不同 PM 填同一功能应能收敛到 ±1 分以内——这是它区别于”凭感觉拍脑袋”的地方。
§6 判断主轴:评分表最容易被用错的四个点
90% 的人会在这四处把这张表用废,每点配症状 → 为什么错 → 正确做法 → 真实反例。
1. 把”接进架构图”当成”降了集中度/锁定度”。
- 症状:架构图上画了 Anthropic 作为 OpenAI 的备选,集中度直接打 1 分。
- 为什么错:没真正跑过的备选不是备选。提示词格式不兼容(Markdown vs XML)、行为漂移方向不同,纸面备选切换时一样要 20–40 小时重写。
- 正确做法:未经影子测试的备选,集中度/退出准备度顶多算中分。
- 真实反例:Sensible 公司迁移时,官方推荐的
gpt-3.5-turbo-instruct直接替换后置信度评分显著回归,被迫拆成两次 API 调用、最终选了非官方推荐的gpt-3.5-turbo-0613(来源:Sensible Blog 2024)。“官方推荐的备选”都不能盲信,何况纸面备选。
2. 假设漂移是单向的(只会变好或只会变坏)。
- 症状:漂移敏感度打分时心想”模型会越来越强,敏感度可以打低点”。
- 为什么错:Chen et al. 数据明确显示漂移任务依赖、非单向——素数识别崩了 33 个点的同时多跳知识反而提升。你不知道你这个功能会往哪漂。
- 正确做法:敏感度按”输出确定性需求 + 失败可见性”打分,与漂移方向无关。
- 真实反例:GPT-4o 谄媚事件——这次漂移是”变得更讨好”,表面像优化,实则对”需要模型敢说真话”的功能(如风险提示、停药建议把关)是灾难性退化。
3. 用移动别名却以为自己”用的是最新最好”。
- 症状:生产代码写
gpt-4o,退出准备度自评高分,理由”我永远在用最新版”。 - 为什么错:移动别名 = 你把控制权完全交给供应商,无法审计、无法复现、漂移无预警。“最新”不等于”对你这个功能最好”。
- 正确做法:生产关键路径一律钉选快照 ID + 记录评估日期 + temperature + system prompt 版本。
- 真实反例:超 40% 的”可执行”学术论文产物因依赖移动别名在数月内失效(来源:Angermeir/Siddiq 等)——这些是专业研究者,尚且栽在别名上。
4. 把退出预案写成文档就算”准备好了”。
- 症状:退出准备度打 5 分,因为 Confluence 上有一篇《模型迁移 SOP》。
- 为什么错:未演练的 runbook 在 2 周弃用预警的压力下大概率失效。Preview 模型只给 2 周。
- 正确做法:退出准备度 5 分要求备选已影子验证通过、回滚演练做过至少一次。
- 真实反例:2026-01 OpenAI 以两周预警下线多模型,开发者社区强烈反应(The Register 报道)——有 SOP 文档但没演练的团队,两周根本来不及。
§7 产品 PM 视角补盲
跳出工程视角,补三个非技术的”看走眼”点:
- 用户心理模型错位:用户不知道模型会漂移。当你的 AI 客服今天比昨天”变笨”或”变啰嗦”,用户归因的是”你们产品质量下降了”,而非”供应商更新了模型”。漂移的声誉损失由你承担,控制权却不在你手——这是时间性风险最不公平的地方。评估表的”漂移敏感度”应额外加权”用户感知敏感”的功能。
- 商业模式敞口:如果你是 thin wrapper(薄包装),供应商更新可能直接抹掉你的差异化——Jasper 案例:2022 年 ARR $75M、估值 $1.5B,OpenAI 直接开放 ChatGPT 后差异化消失,2024 收入跌至约 $55M(-54%)(来源:Maginative 2023)。这不是漂移,是被”Sherlocked”,但同属”供应商单方面行动致产品突变”的时间性风险家族。
- 合规边界:在受监管场景(金融、医疗、出行安全),“我用的模型上周悄悄变了行为”对监管不是免责理由。漂移敏感度 5 分 + 合规场景,退出准备度低于 4 分就不该上线——这是合规红线,不是优化建议。
§8 对手框架回应
接受 + 边界,不反驳:
- OpenAI VP Peter Welinder 立场(不存在故意降质,模型持续变强,用户感知源于使用量增加后注意到更多问题):接受——漂移确有提升的一面(多跳知识在 6 月版本变好),且没有证据指向”故意降质”。边界:本节点不主张供应商恶意,只主张”无完整 changelog 的变更对下游 PM 就是不可控风险”——意图善恶不改变敞口大小。Welinder 的辩护回答的是”是否有恶意”,而 R03 评分回答的是”你该准备到什么程度”,两者不冲突。
- “多供应商策略成本过高”立场:接受——多供应商确实让 prompt 维护量乘以供应商数(XML 与 Markdown 两套),工程复杂度上升,对早期产品是真实负担。边界:所以 R03 不要求所有功能都双供应商,只要求红色(敞口 > 3.5)功能强制双供应商或自托管。绿/黄功能单供应商 + 钉选 + eval 即可。分级正是为了把多供应商的成本花在刀刃上。
- Anthropic 权重永久保存承诺(看似消解了弃用风险):接受——这是行业里唯一的此类公开承诺,确实降低了”模型彻底消失”的极端风险。边界:承诺文件未指定研究者/企业的访问协议与重新开放时间表,执行机制不透明(来源:anthropic.com/research/deprecation-commitments)。“权重被保存”不等于”你能在生产里继续调用”——退出准备度评分不能因为这条承诺就放松。
§9 跨域呼应:把滴滴平台政策突变迁移到模型更新
Rick 在滴滴/99 做双边市场,亲历过平台单方面政策变更致司机行为突变的完整机制——这是理解模型供应商更新的最近类比,也是本专题独特资产(详见 E03 滴滴平台政策变更 vs AI 模型更新对比剖解)。
调度的跨域框架:平台依赖型创业者(Platform-Dependent Entrepreneurs)的权力—依赖理论(Cutolo & Kenney, 2021, Academy of Management Perspectives)。核心:依赖方必须将自身目标与平台对齐、放弃部分自主权,权力不对称源于技术架构与网络效应而非合同条款。这个框架如何改变对”模型更新”的技术判断——
平台政策变更与模型更新结构同构:Uber 2023 引入新动态定价算法后,英国司机通胀调整后时薪从 >£22 降至 >£19(Binns et al., arXiv:2506.15278,258 名司机 150 万次行程);Lyft 2023 Q2 取消 Surge 后每司机收入 -5%。司机和你一样:依赖一个自己不控制、可单方面变更规则的平台,变更后行为/收入突变,且申诉无门。
但关键差异让模型更新更极端——这正是跨域迁移的价值所在:平台政策变更至少有公告(Uber 会通知司机新定价生效),而模型更新不附完整 changelog、移动别名连版本号都没有。司机能看到费率从 £22 变成 £19;你看不到 gpt-4o 背后的权重昨天被换了。Cutolo & Kenney 的”规则风险”(平台单方面修改条款)在 AI 这里退化成了”无声规则风险”——连”规则变了”这个信号都收不到。这意味着 R03 的”漂移敏感度”维度必须配”主动检测”(周跑 eval),因为你不能指望供应商像平台通知司机那样通知你。Rick 的平台一手经验在这里不是装饰,而是把”我经历过被单方面变更规则”的肌肉记忆,迁移成”所以我对模型更新天然该有的防御姿态”。
§10 PM 决策启示
- 面试怎么用:被问”你怎么管理 AI 产品的供应商风险”,不要答”我们会多看几家”。摊开四维评分表:先分功能、按确定性需求和锁定深度打分、红色功能强制双供应商。能说出”60% 的 prompt 是补丁所以换模型不是插拔”和”漂移是任务依赖非单向”两个反直觉点,立刻区别于背框架的候选人。
- 选型会怎么用:每个调大模型的功能填一行表。把决策从”用 GPT 还是 Claude”(错误的问题)升级到”这个功能的敞口指数是多少、配什么预案”(正确的问题)。
- 复现/复盘怎么用:两年后回看这张表——当初打 5 分的红色功能后来是否真出过事?当初的退出预案是否演练过?这张表本身就是可证伪的预测记录,是 Rick 元学习的接地材料。
§11 与已有节点的关系
- 对 m209 - 推理成本控制手册:做补缺,不复述。m209 解决”如何把推理成本降下来”(缓存/路由/语义缓存),但它隐含假设”模型行为稳定”。R03 补上 m209 的盲区:路由到便宜小模型省了钱,却可能升高漂移敏感度与集中度敞口——成本最优解和时间性风险最优解可能冲突。m209 的”model inertia/LLMflation”成本视角,与 R03 的”锁定度”风险视角是同一枚硬币的两面。
- 对本专题 S01 AI 时间性风险分层剖面:R03 是 S01 的操作化。S01 讲”敞口来自哪四个结构性来源”(架构剖面),R03 把这四个来源变成可打分的评估表(复现指南)。四维与 S01 的四来源一一对应。
- 对本专题 S03 AI 供应链时间性全景:R03 的”退出准备度”维度依赖 S03 给出的具体工程手段(钉选、抽象层、eval、影子测试)。R03 负责”打分判断要不要做”,S03 负责”具体怎么做”。
- 对 0133新制度经济学(路径依赖分支):借其”收益递增/锁定”机制解释”锁定度随依赖加深上升”,做理论接地,不复述路径依赖全部内容。
§12 关联节点
核心(必读)
- S01 AI 时间性风险分层剖面 —— R03 四维评分对应的结构来源
- S03 AI 供应链时间性全景 —— “退出准备度”维度的具体工程手段
- E03 滴滴平台政策变更 vs AI 模型更新对比剖解 —— Rick 滴滴平台经验的跨域迁移
- m209 - 推理成本控制手册 —— 成本最优 vs 风险最优的张力
- _AI 产品的时间性系统化专题·总览 —— 专题入口与定位
延伸(可选)
- 幻觉 —— 漂移与幻觉都属”输出不可预期”,但漂移是时间维度的
- Claude / OpenAI / ChatGPT —— 弃用政策与漂移案例主体
- Scaling Laws —— “模型只会越来越强”直觉的来源,被漂移非单向性反驳
- 0133新制度经济学 —— 路径依赖/锁定的理论基础
- Agent —— Agent 多步调用放大漂移敏感度(每步漂移累积)
- AI PM 知识图谱·总索引 —— 全库总入口
修订日志
- R1(2026-06-07):首稿。建立四维敞口评分框架(集中度/锁定度/漂移敏感度/退出准备度)+ 加权敞口指数 + 红黄绿分级退出预案;接地 Chen et al. 2307.09009、GPT-4o 谄媚事件、OpenAI/Anthropic 弃用政策、迁移工时实测、Jasper 案例;跨域调度 Cutolo & Kenney 平台依赖理论 + Uber/Lyft 算法变更实证迁移到模型更新;判断主轴四件套四点;对手回应三处(Welinder/多供应商成本/Anthropic 权重承诺)。
- 〔待核实项〕:OpenAI GA 弃用预告期 3 个月 vs 6 个月的时点切换(接地证据两处口径不一,已在 §4 标注);企业 LLM 市场份额数据(Anthropic 32%/OpenAI 25%)因来源为商业博客未引入正文。