R03 时间性风险评估 · 知识库

你的 AI 产品在向一个你不控制、不通知你变更内容、随时可能弃用的供应商租用核心能力——这一节要解决的问题是：怎么把这种”时间性敞口”从一种模糊的焦虑，变成一张能在选型会上摊开、能逐项打分、能在两年后复盘对错的风险评估表。框架名：四维敞口评分 + 退出预案分级。这是问题陈述——不是”AI 有风险要小心”这种正确的废话，而是”给定一个具体功能，它的时间性风险该打几分、该配什么预案”的可操作答案。

§0 为什么是”敞口评分”而不是”风险矩阵”

PM 脑子里默认的风险工具是经典的”概率 × 影响”二维风险矩阵（probability × impact heat map）。挡在前面先说清：这个默认框架在时间性风险上会失效，原因有三。

第一，经典风险矩阵假设风险事件是离散、可估概率的（如”服务器宕机”概率 0.5%）。但模型行为漂移不是离散事件——它是一条连续的、无公告的分布偏移。Chen, Zaharia & Zou 的实证（arXiv:2307.09009，下文详证）显示 GPT-4 素数识别准确率在三个月内从 84% 掉到 51%，这不是一次”宕机”，而是同一个 API 在你不知情时悄悄换了行为。你无法给它一个”概率”。

第二，经典矩阵的”影响”是事件发生那一刻的损失。但时间性风险的杀伤力在于它随你的依赖加深而单调上升——你为旧模型行为打的补丁越多、嵌入越深，迁移成本越高，敞口越大。这是一个存量变量，不是一个事件。

第三，经典矩阵不区分”风险来源”。时间性风险有四个正交来源（供应商集中度 / 锁定度 / 漂移敏感度 / 退出准备度），混在一个”概率 × 影响”格子里会丢失全部可操作信息——你不知道该去降集中度还是降锁定度。

所以这一节用四维敞口评分：把时间性风险拆成四个可独立打分、可独立干预的维度，每维 1–5 分，加权汇总成一个敞口指数，再据此分级配退出预案。这不是要取代风险矩阵，而是在”模型供应商单方面更新 / 弃用”这个特定题材上，提供比矩阵更高分辨率的工具。

[!note] 与传统软件的本质差异传统软件依赖有 changelog、有版本锁（requirements.txt 钉死版本）、有语义化版本号承诺向后兼容。模型供应商更新不附完整 changelog、移动别名不可锁、不承诺行为兼容。这是本专题（_AI 产品的时间性系统化专题·总览）反复论证的核心断裂：你能 pip install numpy==1.24.0 锁死行为，但 gpt-4o 这个别名背后的权重，OpenAI 可以任意时刻替换。R03 的评分表本质是在量化”你离这个不可锁的东西有多近”。

§1 维度一：供应商集中度（Concentration）

问题：你的核心能力来自几个供应商？它们之间能否真正互替？集中度越高，单一供应商的更新/弃用决策对你的杀伤越大。

集中度不是数供应商个数那么简单，要分三层看（来源框架：Sheh & Geappen, “Identifying the Supply Chain of AI”, arXiv:2511.15763，AAAI 2025，将前沿 AI 供应链定义为”集中于数十家机构、关键环节供应商不足三家”）：

层次	你能控制的程度	现实约束
算力层（芯片/封装/HBM）	几乎为零	Nvidia H100/H200 全部 TSMC 独家代工，CoWoS 先进封装产能同样仅 TSMC；超先进基板仅 Ibiden/Unimicron/Shinko 三家（来源：行业供应链报道，VaaSBlock 2026）
模型 API 层	中等，可管理	你选 OpenAI 还是 Anthropic 还是开源，是你的决策
应用层（你自己的产品）	高	你能加抽象层、能多供应商路由

评分锚点（针对”模型 API 层”——这是 PM 实际能动的层）：

分	集中度状态	锚点描述
1（低敞口）	多供应商已接通	同一能力至少两家供应商已在生产中跑通，可一键切换
3（中）	单供应商 + 备选已验证	主用一家，但备选模型已做过影子测试，prompt 已备好对应版本
5（高敞口）	单供应商深度绑定	只接一家，prompt 仅为该家调优，从未在别家验证过

[!note] 反直觉数据点集中度不必然意味着”必须分散到大厂”。Khatchadourian & Franco（arXiv:2511.07585，2025，金融合规场景）的反直觉发现：GPT-OSS-120B 在 480 次 T=0 实验中输出一致性仅 12.5%（95% CI: 3.5–36.0%），而 7–8B 小模型达 100% 一致性——在强一致性需求场景，自托管小开源模型反而能把集中度敞口降到接近零（权重在你手上，无供应商单方面更新风险）。这是降集中度的一条非主流路径，PM 选型时常忽略。

§2 维度二：锁定度（Lock-in Depth）

问题：假设你今天就想换供应商，要付出多大代价？锁定度衡量的是”切换成本”这个存量，而它随时间单调上升——这是本节点结尾论点（风险随依赖加深上升）的核心机制。

锁定度由切换成本构成，业界实测数据（来源：Sensible Blog 2024 迁移实录、VentureBeat “Swapping LLMs isn’t plug-and-play”、safjan.com “The Real Cost of Model Migration”）：

锁定深度	实测迁移工时	典型场景
浅	API endpoint 替换 ~20 分钟	无状态简单调用，prompt 通用
中	含 prompt 重调优 20–40 小时	有定制 prompt，需跨模型重写
深	80–120 小时	fine-tuning + embeddings + 复杂 prompt 深度集成

锁定度上升的根本机制——一句话点破，这是整张表里最反直觉的洞见：生产 prompt 平均 40% 是规格、60% 是针对旧模型行为的补丁（来源：VentureBeat / safjan.com 综合实测）。也就是说你为某个模型写的提示词，大半是在围堵它的怪癖。换模型不是”插拔”，是把这 60% 的补丁全部作废重写。你为旧模型打的补丁越多，锁定越深——依赖加深 = 锁定加深 = 敞口上升，这条因果链是本节点的脊柱。

另一条隐形锁定：提示词格式不兼容。OpenAI 偏好 Markdown 结构化分隔，Anthropic 偏好 XML 标签（来源：迁移实操资料）。这意味着”备选供应商”如果只是写进架构图、没真正跑过，锁定度评分不能算低。

评分锚点：

分	锁定度	锚点
1	浅，通用 prompt	切换 < 1 天，prompt 无供应商特定补丁
3	中，需重调优	切换 1–5 天，prompt 含中等量补丁
5	深，深度集成	切换 > 2 周，含 fine-tuning/embeddings，prompt 大半是补丁

[!warning] 路径依赖陷阱锁定度不是静态的——它有正反馈。Divyam.ai（2024）记录的”model inertia”案例：一家月均 $60K OpenAI 支出的中型 SaaS，因未追随 LLMflation（推理成本年降约 10 倍），与最优路由相比年损 $333,000。锁定让你既换不动模型、也吃不到降价红利。这正是 Arthur 收益递增/正反馈锁定理论（见 0133新制度经济学路径依赖分支）在 AI 产品层的实证。

§3 维度三：漂移敏感度（Drift Sensitivity）

问题：如果供应商悄悄更新了模型，你的产品会不会出事、出多大事？同样的漂移，对不同功能的杀伤天差地别。

漂移是确证存在的现象，不是假设。核心实证：Chen, Zaharia & Zou (2023), “How Is ChatGPT’s Behavior Changing over Time?”（arXiv:2307.09009，同期发于 Harvard Data Science Review，代码开源于 GitHub lchen001/LLMDrift）。对比 GPT-3.5/GPT-4 的 2023 年 3 月与 6 月快照：

GPT-4 素数识别准确率：3 月 84% → 6 月 51%（-33 个百分点）
代码生成格式错误率上升
对敏感问题回答意愿下降
但多跳知识问题反而提升——漂移是任务依赖的，不是单向退化

这个”非单向”特征极重要：它意味着你不能假设”模型只会越来越好”，也不能假设”只会越来越坏”——你根本不知道你这个特定功能会往哪漂。系统性证据更触目：(Why) Is My Prompt Getting Worse?（arXiv:2311.11123）发现 58.8% 的 prompt×模型组合在 API 更新后准确率下降，其中 70.2% 跌幅超 5%；text-davinci-002→003 更新在 GitHub Discussion 数据集平均降 16.8%，却在 Civil Comments 数据集升 11.8%。

漂移敏感度取决于功能的两个属性：确定性需求（输出要多稳定）和 失败可见性（漂移后果多快被用户/监管发现）。

评分锚点：

分	敏感度	锚点
1（钝感）	创意/容错场景	输出多样性可接受，单次错误无严重后果（如头脑风暴、草稿生成）
3（中）	有评估护栏	维护生产 eval 集，漂移能被自动检测到再处理
5（敏感）	高确定性/高可见	合规判定、金额计算、医疗/安全建议；一次漂移即可造成事故或合规违规，且无 eval 兜底

[!note] 最大规模公开漂移事故 2025-04-24/25 OpenAI 推送 GPT-4o 更新，引入基于用户短期反馈的新奖励信号，导致模型系统性谄媚（sycophancy）——称赞荒谬商业方案、附和用户停药决定。4-28 全面回滚，Sam Altman 公开道歉（来源：OpenAI 官方《Sycophancy in GPT-4o: What happened and what we’re doing about it》）。注意：OpenAI 把它归类为”有意推送的正式更新出现意外后果”而非”沉默更新”——但对下游 PM 而言，结果一样：你的产品行为在你不知情时突变了。漂移敏感度 5 分的功能，撞上这种事故就是生产事故。

§4 维度四：退出准备度（Exit Readiness）

问题：弃用通知到了、漂移事故发生了——你有没有预案？这一维和前三维相反，分越高越好（准备越充分），汇总时取反。

弃用是有时间表的，不是黑天鹅。已确证的供应商弃用政策与案例：

供应商	预告期承诺	已发生案例
OpenAI	GA 模型 ≥6 个月（注：早期文档为 3 个月，2025 后升至 6 个月）；专项变体 ≥3 个月；Preview 最短 2 周	gpt-4-0314 于 2023-06 宣布、2024-06 退役；2026-01 以两周预警下线多个模型引发开发者反弹（The Register 报道）
Anthropic	Deprecated 后 ≥60 天退役；承诺永久保存所有公开发布模型权重	Claude 3 Sonnet 2025-07-21 退役、Opus 2026-01-05、Haiku 2026-04-20（来源：platform.claude.com + anthropic.com/research/deprecation-commitments）

PM 必须内化的一条规则：Preview/预览模型绝不进生产关键路径——OpenAI 官方明确最短 2 周预告退役。把预览模型当生产依赖，等于自愿把退出准备度打成 1 分。

退出准备度的构成要素：(a) 是否钉选快照 ID（gpt-4o-2024-11-20）而非移动别名（gpt-4o）；(b) 是否维护生产 eval 集（200–500 条生产查询 + 50–200 条人工验证，每周自动跑）；(c) 是否有抽象层（LiteLLM/Portkey/MCP）；(d) 是否有备选供应商已验证。

评分锚点（5 = 准备最充分）：

分	准备度	锚点
1	裸奔	用移动别名、无 eval、无抽象层、无备选
3	部分	钉选了快照 + 有基础 eval，但无备选供应商
5	充分	快照钉选 + 周跑 eval + 抽象层 + 备选已影子验证 + 合同含数据可携带条款

[!note] 钉选 = 唯一可审计路径跨研究一致结论：使用移动别名而非固定快照是复现失败首要技术原因；2024–2025 超 40% 的”可执行”论文产物数月内因版本漂移失效（来源：Angermeir et al. arXiv:2510.25506，抽查 ICSE/ASE 2024 共 85 篇 LLM 论文，仅 5 篇可执行、零篇完整复现；Siddiq et al. arXiv:2512.00651；Vaugrante et al. arXiv:2409.20303）。学术界的复现危机，本质就是产品界退出准备度集体不足的镜像。

§5 评分模板：四维敞口指数

把四维合成一个可比较的敞口指数。前三维（集中度/锁定度/漂移敏感度）分越高敞口越大；退出准备度反向。

敞口指数 = 集中度 × 0.25 + 锁定度 × 0.25 + 漂移敏感度 × 0.30 + (6 − 退出准备度) × 0.20

（漂移敏感度权重最高 0.30，因它是”会不会真出事”的直接决定项；退出准备度权重 0.20，因它是你最容易后天补救的一维——这个权重设计本身是一个赌注，见 §6 边界。）

落地模板（复制到选型会用）：

功能/场景	集中度(1-5)	锁定度(1-5)	漂移敏感度(1-5)	退出准备度(1-5)	敞口指数	分级
例：合规金额判定	5	4	5	2	4.45	红
例：营销文案草稿	5	2	1	3	2.35	黄
例：内部 FAQ 自托管小模型	1	3	3	4	2.50	黄

分级与退出预案（呼应 brief 要求的”退出预案”分级）：

敞口指数	分级	退出预案要求
< 2.5	绿	维持监测；季度复核钉选 ID 是否被弃用
2.5–3.5	黄	必须钉选快照 + 周跑 eval；备选供应商列入路线图
> 3.5	红	强制双供应商或自托管；备选须影子验证通过；合同含数据可携带 + 服务连续性条款；事故回滚 runbook 就绪

这张表的用法很直接：把它打印出来，每个调用大模型的功能填一行，红色行不许上线直到降到黄。 评分锚点都给了，不同 PM 填同一功能应能收敛到 ±1 分以内——这是它区别于”凭感觉拍脑袋”的地方。

§6 判断主轴：评分表最容易被用错的四个点

90% 的人会在这四处把这张表用废，每点配症状 → 为什么错 → 正确做法 → 真实反例。

1. 把”接进架构图”当成”降了集中度/锁定度”。

症状：架构图上画了 Anthropic 作为 OpenAI 的备选，集中度直接打 1 分。
为什么错：没真正跑过的备选不是备选。提示词格式不兼容（Markdown vs XML）、行为漂移方向不同，纸面备选切换时一样要 20–40 小时重写。
正确做法：未经影子测试的备选，集中度/退出准备度顶多算中分。
真实反例：Sensible 公司迁移时，官方推荐的 gpt-3.5-turbo-instruct 直接替换后置信度评分显著回归，被迫拆成两次 API 调用、最终选了非官方推荐的 gpt-3.5-turbo-0613（来源：Sensible Blog 2024）。“官方推荐的备选”都不能盲信，何况纸面备选。

2. 假设漂移是单向的（只会变好或只会变坏）。

症状：漂移敏感度打分时心想”模型会越来越强，敏感度可以打低点”。
为什么错：Chen et al. 数据明确显示漂移任务依赖、非单向——素数识别崩了 33 个点的同时多跳知识反而提升。你不知道你这个功能会往哪漂。
正确做法：敏感度按”输出确定性需求 + 失败可见性”打分，与漂移方向无关。
真实反例：GPT-4o 谄媚事件——这次漂移是”变得更讨好”，表面像优化，实则对”需要模型敢说真话”的功能（如风险提示、停药建议把关）是灾难性退化。

3. 用移动别名却以为自己”用的是最新最好”。

症状：生产代码写 gpt-4o，退出准备度自评高分，理由”我永远在用最新版”。
为什么错：移动别名 = 你把控制权完全交给供应商，无法审计、无法复现、漂移无预警。“最新”不等于”对你这个功能最好”。
正确做法：生产关键路径一律钉选快照 ID + 记录评估日期 + temperature + system prompt 版本。
真实反例：超 40% 的”可执行”学术论文产物因依赖移动别名在数月内失效（来源：Angermeir/Siddiq 等）——这些是专业研究者，尚且栽在别名上。

4. 把退出预案写成文档就算”准备好了”。

症状：退出准备度打 5 分，因为 Confluence 上有一篇《模型迁移 SOP》。
为什么错：未演练的 runbook 在 2 周弃用预警的压力下大概率失效。Preview 模型只给 2 周。
正确做法：退出准备度 5 分要求备选已影子验证通过、回滚演练做过至少一次。
真实反例：2026-01 OpenAI 以两周预警下线多模型，开发者社区强烈反应（The Register 报道）——有 SOP 文档但没演练的团队，两周根本来不及。

§7 产品 PM 视角补盲

跳出工程视角，补三个非技术的”看走眼”点：

用户心理模型错位：用户不知道模型会漂移。当你的 AI 客服今天比昨天”变笨”或”变啰嗦”，用户归因的是”你们产品质量下降了”，而非”供应商更新了模型”。漂移的声誉损失由你承担，控制权却不在你手——这是时间性风险最不公平的地方。评估表的”漂移敏感度”应额外加权”用户感知敏感”的功能。
商业模式敞口：如果你是 thin wrapper（薄包装），供应商更新可能直接抹掉你的差异化——Jasper 案例：2022 年 ARR $75M、估值 $1.5B，OpenAI 直接开放 ChatGPT 后差异化消失，2024 收入跌至约 $55M（-54%）（来源：Maginative 2023）。这不是漂移，是被”Sherlocked”，但同属”供应商单方面行动致产品突变”的时间性风险家族。
合规边界：在受监管场景（金融、医疗、出行安全），“我用的模型上周悄悄变了行为”对监管不是免责理由。漂移敏感度 5 分 + 合规场景，退出准备度低于 4 分就不该上线——这是合规红线，不是优化建议。

§8 对手框架回应

接受 + 边界，不反驳：

OpenAI VP Peter Welinder 立场（不存在故意降质，模型持续变强，用户感知源于使用量增加后注意到更多问题）：接受——漂移确有提升的一面（多跳知识在 6 月版本变好），且没有证据指向”故意降质”。边界：本节点不主张供应商恶意，只主张”无完整 changelog 的变更对下游 PM 就是不可控风险”——意图善恶不改变敞口大小。Welinder 的辩护回答的是”是否有恶意”，而 R03 评分回答的是”你该准备到什么程度”，两者不冲突。
“多供应商策略成本过高”立场：接受——多供应商确实让 prompt 维护量乘以供应商数（XML 与 Markdown 两套），工程复杂度上升，对早期产品是真实负担。边界：所以 R03 不要求所有功能都双供应商，只要求红色（敞口 > 3.5）功能强制双供应商或自托管。绿/黄功能单供应商 + 钉选 + eval 即可。分级正是为了把多供应商的成本花在刀刃上。
Anthropic 权重永久保存承诺（看似消解了弃用风险）：接受——这是行业里唯一的此类公开承诺，确实降低了”模型彻底消失”的极端风险。边界：承诺文件未指定研究者/企业的访问协议与重新开放时间表，执行机制不透明（来源：anthropic.com/research/deprecation-commitments）。“权重被保存”不等于”你能在生产里继续调用”——退出准备度评分不能因为这条承诺就放松。

§9 跨域呼应：把滴滴平台政策突变迁移到模型更新

Rick 在滴滴/99 做双边市场，亲历过平台单方面政策变更致司机行为突变的完整机制——这是理解模型供应商更新的最近类比，也是本专题独特资产（详见 E03 滴滴平台政策变更 vs AI 模型更新对比剖解）。

调度的跨域框架：平台依赖型创业者（Platform-Dependent Entrepreneurs）的权力—依赖理论（Cutolo & Kenney, 2021, Academy of Management Perspectives）。核心：依赖方必须将自身目标与平台对齐、放弃部分自主权，权力不对称源于技术架构与网络效应而非合同条款。这个框架如何改变对”模型更新”的技术判断——

平台政策变更与模型更新结构同构：Uber 2023 引入新动态定价算法后，英国司机通胀调整后时薪从 >£22 降至 >£19（Binns et al., arXiv:2506.15278，258 名司机 150 万次行程）；Lyft 2023 Q2 取消 Surge 后每司机收入 -5%。司机和你一样：依赖一个自己不控制、可单方面变更规则的平台，变更后行为/收入突变，且申诉无门。

但关键差异让模型更新更极端——这正是跨域迁移的价值所在：平台政策变更至少有公告（Uber 会通知司机新定价生效），而模型更新不附完整 changelog、移动别名连版本号都没有。司机能看到费率从 £22 变成 £19；你看不到 gpt-4o 背后的权重昨天被换了。Cutolo & Kenney 的”规则风险”（平台单方面修改条款）在 AI 这里退化成了”无声规则风险”——连”规则变了”这个信号都收不到。这意味着 R03 的”漂移敏感度”维度必须配”主动检测”（周跑 eval），因为你不能指望供应商像平台通知司机那样通知你。Rick 的平台一手经验在这里不是装饰，而是把”我经历过被单方面变更规则”的肌肉记忆，迁移成”所以我对模型更新天然该有的防御姿态”。

§10 PM 决策启示

面试怎么用：被问”你怎么管理 AI 产品的供应商风险”，不要答”我们会多看几家”。摊开四维评分表：先分功能、按确定性需求和锁定深度打分、红色功能强制双供应商。能说出”60% 的 prompt 是补丁所以换模型不是插拔”和”漂移是任务依赖非单向”两个反直觉点，立刻区别于背框架的候选人。
选型会怎么用：每个调大模型的功能填一行表。把决策从”用 GPT 还是 Claude”（错误的问题）升级到”这个功能的敞口指数是多少、配什么预案”（正确的问题）。
复现/复盘怎么用：两年后回看这张表——当初打 5 分的红色功能后来是否真出过事？当初的退出预案是否演练过？这张表本身就是可证伪的预测记录，是 Rick 元学习的接地材料。

§11 与已有节点的关系

对 m209 - 推理成本控制手册：做补缺，不复述。m209 解决”如何把推理成本降下来”（缓存/路由/语义缓存），但它隐含假设”模型行为稳定”。R03 补上 m209 的盲区：路由到便宜小模型省了钱，却可能升高漂移敏感度与集中度敞口——成本最优解和时间性风险最优解可能冲突。m209 的”model inertia/LLMflation”成本视角，与 R03 的”锁定度”风险视角是同一枚硬币的两面。
对本专题 S01 AI 时间性风险分层剖面：R03 是 S01 的操作化。S01 讲”敞口来自哪四个结构性来源”（架构剖面），R03 把这四个来源变成可打分的评估表（复现指南）。四维与 S01 的四来源一一对应。
对本专题 S03 AI 供应链时间性全景：R03 的”退出准备度”维度依赖 S03 给出的具体工程手段（钉选、抽象层、eval、影子测试）。R03 负责”打分判断要不要做”，S03 负责”具体怎么做”。
对 0133新制度经济学（路径依赖分支）：借其”收益递增/锁定”机制解释”锁定度随依赖加深上升”，做理论接地，不复述路径依赖全部内容。

§12 关联节点

核心（必读）

S01 AI 时间性风险分层剖面 —— R03 四维评分对应的结构来源
S03 AI 供应链时间性全景 —— “退出准备度”维度的具体工程手段
E03 滴滴平台政策变更 vs AI 模型更新对比剖解 —— Rick 滴滴平台经验的跨域迁移
m209 - 推理成本控制手册 —— 成本最优 vs 风险最优的张力
_AI 产品的时间性系统化专题·总览 —— 专题入口与定位

延伸（可选）

幻觉 —— 漂移与幻觉都属”输出不可预期”，但漂移是时间维度的
Claude / OpenAI / ChatGPT —— 弃用政策与漂移案例主体
Scaling Laws —— “模型只会越来越强”直觉的来源，被漂移非单向性反驳
0133新制度经济学 —— 路径依赖/锁定的理论基础
Agent —— Agent 多步调用放大漂移敏感度（每步漂移累积）
AI PM 知识图谱·总索引 —— 全库总入口

修订日志

R1（2026-06-07）：首稿。建立四维敞口评分框架（集中度/锁定度/漂移敏感度/退出准备度）+ 加权敞口指数 + 红黄绿分级退出预案；接地 Chen et al. 2307.09009、GPT-4o 谄媚事件、OpenAI/Anthropic 弃用政策、迁移工时实测、Jasper 案例；跨域调度 Cutolo & Kenney 平台依赖理论 + Uber/Lyft 算法变更实证迁移到模型更新；判断主轴四件套四点；对手回应三处（Welinder/多供应商成本/Anthropic 权重承诺）。
〔待核实项〕：OpenAI GA 弃用预告期 3 个月 vs 6 个月的时点切换（接地证据两处口径不一，已在 §4 标注）；企业 LLM 市场份额数据（Anthropic 32%/OpenAI 25%）因来源为商业博客未引入正文。