A01 AI 产品时间性概念谱系
A01 AI 产品时间性概念谱系
传统软件 PM 脑子里有一个从不言明的隐性公理:只要我不动代码,系统的行为就不会变。版本可以锁、依赖可以钉、变更有 changelog、回滚有 git revert——时间在传统软件里是一条可控的、可审计的、可逆的轴。这篇要解决的问题是:当你的产品建在一个第三方大模型 API 之上,这条公理为什么会整个塌掉,以及”AI 产品的时间性”到底是个什么东西、它在概念谱系上和”版本""漂移""演化""弃用”这几个近邻是什么关系。本节的视角是供应链风险管理 + 平台经济学——把”模型供应商”当成一个你无法控制、且不向你披露变更内容的上游平台来分析。
判断主轴一句话:用传统软件的稳定性假设去做 AI 产品,等于在地基里埋下行为突变的地雷。这不是夸张——这是一个可证伪的、有日期、有数字的结构性事实。
§0 为什么是”时间性”这个框架,而不是”版本管理”或”质量波动”
读者脑子里第一个默认框架大概率是错的,先挡掉两个。
错误框架 A:“这就是版本管理问题,钉死版本号不就行了。” 部分对——但只解决了一半。传统软件里”版本号”是一个完整契约:v2.3.1 这串字符唯一确定了二进制行为,你拿到同一个 .jar 在任何时刻跑出来的结果都一样。AI 世界里,gpt-4o 这种移动别名(moving alias)根本不是版本号,它是一个指针,指向供应商后端”当前认为最好”的那个权重,而那个权重会在你不知情的情况下被换掉。即便你用了带日期戳的快照(snapshot)如 gpt-4o-2024-11-20,供应商也保留单方面弃用(deprecation)它的权力——OpenAI 对通用可用(GA)模型的最短弃用预告是 6 个月,预览(preview)模型短到 2 周(来源:OpenAI 官方弃用文档 developers.openai.com/api/docs/deprecations)。所以”钉版本”在 AI 里是有时限的租约,不是所有权。这是时间性的第一层:你连”不变”都买不到永久。
错误框架 B:“模型本来就有随机性(temperature),输出有波动很正常。” 这是把两个正交的东西混为一谈。temperature 引入的是同一个权重内部的采样随机性——它是有界的、可被 temperature=0 大幅压制的、分布是已知的。而本专题讲的”时间性”是权重本身在时间轴上被替换导致的分布漂移(behavioral drift)——它无界、不可压制、且分布对你完全未知。一个反直觉的实证:Khatchadourian & Franco(2025, arXiv:2511.07585)在金融工作流测试中发现,GPT-OSS-120B 在 T=0(温度归零)时 480 次实验仅有 12.5% 的输出一致性(95% CI: 3.5–36.0%),而 7–8B 小模型反而达到 100% 一致性——把温度调到零都压不住大模型的不确定性,可见波动的根源远不止采样随机。
所以正确的框架是:把”AI 产品行为随时间的非自主变化”当成一个独立的风险维度来命名和管理,它既不是版本管理(因为你无版本所有权),也不是随机波动(因为它是结构性的分布迁移)。我把这个维度叫时间性(temporality):你的产品行为是上游一个你不拥有、不可审计、不附 changelog 的时间过程的函数。
§1 概念谱系:四个近邻术语的精确切分
把这四个常被混用的词钉清楚,是本专题所有后续判断的地基。
| 术语 | 精确定义 | 触发主体 | 传统软件有无对应物 |
|---|---|---|---|
| 静默更新(Silent Update) | 供应商在不变更 API 合同、不发公告的前提下更新后端模型权重/参数,使相同输入产生不同输出 | 供应商(单方面) | 无——传统软件改行为必改版本号 |
| 行为漂移(Behavioral Drift) | 随时间观测到的输出分布偏移,是静默更新/基础设施变更/RLHF 调整的可观测结果 | 表现层(被动观测) | 部分有(如依赖库升级),但有 changelog |
| 模型弃用(Deprecation) | 供应商宣布某模型将于某日退役,强制用户迁移 | 供应商(有预告) | 有(EOL),但用户通常可不升级、自行维护 |
| 快照 vs 别名(Snapshot vs Alias) | 快照=带日期戳的不可变版本(gpt-4-0613);别名=滚动指向最新的指针(gpt-4) | 用户选择 | 别名近似 latest tag,快照近似锁定 commit |
四者的关系链:静默更新(原因) → 行为漂移(现象) → 用快照而非别名(局部缓解) → 但快照终会被弃用(根因复发)。这是一个闭环:你无法靠工程手段一劳永逸地逃出时间性,只能买时间、做监控、留退路。
这里有个判断主轴上的常见错位值得单独点名:很多 PM 把”静默更新”和”正式更新出事”混为一谈。2025 年 4 月的 GPT-4o 谄媚(sycophancy)事件,业界常拿它当”静默更新致灾”的典型——但 OpenAI 官方事后分析(《Sycophancy in GPT-4o: What happened and what we’re doing about it》)把它定性为有意推送的正式更新出现意外后果(新引入的基于用户短期反馈的奖励信号覆盖了已有护栏),而非”静默”。这个区分对 PM 很要紧:静默更新你事前无从知晓,正式更新你至少能在 release note 里看到风险——前者的防御只能靠监控,后者还能靠”灰度观望”。把两者混淆,会让你高估或低估自己的防御能力。
§2 判断主轴:稳定性假设如何变成”埋雷”——四件套
这一节是本节点的命门。 90% 从传统软件转过来的 PM 会在下面四个点上栽跟头,每个都给出”症状 → 为什么会错 → 正确做法 → 真实反例”。
雷区一:用移动别名进生产。
- 症状:代码里写死
model="gpt-4o",上线后某天用户投诉”AI 突然变笨/变啰嗦/拒答了”,你查代码发现自己什么都没改。 - 为什么会错:沿用了”我不动代码行为就不变”的传统软件直觉,把别名当成了稳定版本号。
- 正确做法:生产环境一律用带日期戳的快照(
gpt-4o-2024-11-20),把”何时升级到新快照”变成一个主动的、有评估的产品决策,而不是被动接受供应商的滚动更新。 - 真实反例:Chen, Zaharia & Zou(2023, arXiv:2307.09009)对比 GPT-4 在 2023 年 3 月与 6 月两个快照,发现素数识别准确率从 84% 暴跌到 51%(-33 个百分点)。如果你用的是别名,这 33 个百分点会在某个你毫无防备的夜里直接砸进你的生产指标。
雷区二:把 prompt 当成稳定资产。
- 症状:团队积累了大量针对当前模型精调的 prompt,换模型/换版本后这些 prompt 集体失效,需要数十小时重调。
- 为什么会错:误以为 prompt 是”业务规格”,其实生产 prompt 里约 40% 是规格、60% 是针对旧模型行为的临时补丁(来源:VentureBeat / safjan.com 迁移成本分析)。
- 正确做法:把 prompt 视为对特定模型行为的耦合代码,纳入版本管理和回归测试;迁移成本要按”重写业务逻辑”而非”改配置”来估。
- 真实反例:Chen et al. 同一研究发现,GPT-4 的 6 月版本对思维链(chain-of-thought)提示的响应性下降,这正是多数行为退化的归因——你精心设计的 CoT prompt,可能在一次静默更新后从”有效技巧”变成”无效噪声”。
雷区三:假设”漂移=退化”,方向单一可预测。
- 症状:制定监控时只盯”性能下降”,假设模型只会越来越笨。
- 为什么会错:漂移是任务依赖的、双向的。Chen et al. 同一研究里,GPT-4 在多跳知识问题上 6 月版本反而提升;另一项研究(arXiv:2311.11123)发现
text-davinci-002→003更新在 GitHub Discussion 数据集上平均下降 16.8%,却在 Civil Comments 数据集上提升 11.8%。 - 正确做法:监控要覆盖你全部核心任务类型,而不是一个综合分;漂移可能在 A 任务变好的同时让 B 任务变差。
- 真实反例:见上;同一次更新对不同任务符号相反,任何单一指标都会骗你。
雷区四:以为”开源/自托管”就免疫时间性。
- 症状:“我们自己部署 Llama/Qwen,权重在我手上,就没有这个问题了。”
- 为什么会错:自托管确实消除了供应商单方面替换权重的风险(这是它在复现性上的结构性优势),但时间性的其他来源仍在:你自己的基础设施变更(推理框架升级、量化精度调整、GPU 架构切换)同样能造成行为漂移;且你放弃了供应商持续迭代带来的能力提升,承担了”模型能力相对停滞”的另一种时间性代价。
- 正确做法:认清自托管是用一种时间性(能力停滞 + 运维负担)换另一种时间性(供应商失控),是 trade-off 不是 free lunch。
- 真实反例:Vaugrante, Niepert & Hagendorff(2024, arXiv:2409.20303)复现五种知名提示技术跨六个模型,发现几乎所有技术的效果差异在统计上均不显著——这指向方法论层面的系统性脆弱,自托管也躲不开”今天有效的技巧明天可能本就站不住”。
§3 产品 PM 视角补盲:工程之外的三个看走眼点
跳出”工程 PM”只盯技术耦合的窄视角,补三个商业/用户/合规盲点。
用户心理模型盲点:用户把 AI 产品当”稳定的工具”,而非”会变的服务”。 用户对一把锤子的预期是它今天和明天一样重。当你的 AI 产品因上游静默更新而”昨天能干今天干不了”时,用户的归因不是”供应商换了模型”,而是”这个产品坏了/缩水了”。GPT-4o 谄媚事件中,用户在数天内广泛感知到模型”变得过度附和”——这种体感突变对品牌信任的伤害,远大于一次有公告的功能下线。PM 必须管理的不是模型,而是用户对”稳定性”的预期落差。
商业模式盲点:你的差异化可能建在供应商随时会收回的能力之上。 这是时间性的商业版本——平台经济学里的包络风险(envelopment)。如果你的产品价值主要来自”在通用模型上包一层薄薄的 prompt 工程”,那么供应商一次能力升级就可能把你的护城河填平。这条留给本专题的供应商锁定/平台依赖节点深入,这里只点出:时间性不只是技术风险,更是商业存亡风险。
合规边界盲点:行为漂移会击穿你已通过的合规审查。 你为某个监管场景(金融、医疗、安全)做的模型行为认证,是基于认证当时那个权重的行为。一次静默更新后,模型行为可能已经偏离你提交给监管的样本——你的合规结论在你不知情时就过期了。这正是 Khatchadourian & Franco(2025)反直觉地建议”小模型/自托管更适合合规场景”的逻辑:合规要的是可复现、可审计、不漂移,而非最高能力。
§4 对手框架回应:接受 + 边界
对手立场(OpenAI VP Peter Welinder):“不存在故意降质,模型在持续迭代变强;用户感知到的’变笨’可能源于使用量增加后注意到了更多原本就存在的问题。”
接受的部分:这个反驳有其合理性。Chen et al. 的研究只对比了两个时间点,无法证明”系统性退化”是趋势而非快照噪声;而且部分任务(多跳知识)确实在变好,说明供应商并非在”故意降质”。把漂移一律解读为”供应商坑用户”是阴谋论,我不持这个立场。
坚持的边界:但这恰恰是本专题的核心论点——供应商是不是”故意”降质根本不重要,重要的是 PM 无法预测、无法控制、无法审计这个过程。Welinder 的辩护即便全对,也没有改变”产品方承担了一个不向自己披露内容的上游变更风险”这个结构性事实。我赌的是:未来 2–3 年内,主流模型 API 都不会提供传统软件级别的行为稳定性契约(完整 changelog + 永久版本锁 + 行为回归保证),因此 PM 必须把时间性当成一个长期的、要主动管理的风险维度,而不是等供应商良心发现。
边界的边界(failure scenario):如果某供应商真的推出”行为冻结 + 完整 diff 披露”的企业级 SKU(技术上并非不可能),本节点关于”无 changelog”的论断在那个 SKU 上会失效。这是我承认的、可被证伪的赌注边界。
§5 跨域呼应:供应链风险管理 × 平台政策突变
调度一个跨域框架并具体展开它如何改变技术判断。
[!note] 跨域调度:从”软件版本控制”到”供应链单点依赖” 传统软件 PM 的心智模型是版本控制(version control)——一个以”可逆、可锁、可审计”为核心假设的范式。本专题主张:做 AI 产品必须把心智模型整个换成供应链风险管理(supply chain risk management)。这个切换不是修辞,它改变了三个具体判断: (1) 从”锁版本”到”管供应商”:供应链思维里没有”永久锁定上游”这回事,只有”评估单一供应商风险 + 准备替代源”。对应到 AI,就是多供应商抽象层、影子测试、退出条款。 (2) 从”changelog 缺失是 bug”到”信息不对称是结构常态”:供应链里上游从不向你完整披露其内部变更,你靠的是**到货检验(incoming inspection)**而非上游的诚实。对应到 AI,就是把内嵌评估基础设施(200–500 条生产查询 + 每周自动 eval)当成”到货检验”,而不是指望供应商给你 changelog。 (3) 从”故障=代码 bug”到”故障=上游批次波动”:供应链里同一供应商不同批次质量波动是常态,你用统计过程控制(SPC)去管,而非追求零波动。对应到 AI,就是接受行为漂移不可消除,转而设漂移监控的控制上下限。
Rick 的一手经验迁移(独特资产):这个跨域呼应在我这里不是书本知识。在滴滴/99 做双边市场和平台治理时,我亲历过平台政策单方面变更导致司机行为突变——一次抽成规则或派单逻辑的调整,就能让数十万司机的接单行为在几天内整体迁移,而司机端事前无从知晓变更内容。这与模型供应商静默更新致产品行为突变,在结构上同构:一个你依附其上、却无法控制、且不向你完整披露变更的上游,单方面改变了游戏规则。但 AI 更极端——平台政策变更至少还有一份对外公告和生效日期,而模型静默更新连公告都没有。这个类比的迁移(以及它在哪里失效)由本专题 E03 节点专门承接,这里只锚定:我对”时间性”的判断,有平台经济学的实战接地,不是纸上谈兵。
§6 PM 决策启示:面试 / 选型 / 复现三类落地
面试桌上:当被问”做 AI 产品和做传统软件最大的不同是什么”,不要答”AI 不确定性高”(人人会答)。答:“传统软件的时间是可控轴——版本可锁、变更有 changelog;AI 产品的行为是上游一个我不拥有、不可审计、不附 changelog 的时间过程的函数。我会把它当供应链单点依赖来管,而不是当版本管理。“——30 秒亮出判断密度。
选型会上:评估模型供应商时,除了比能力和价格,必问三个时间性问题:(1) 有没有带日期戳的快照可锁?(2) 弃用预告期多长?(GA 6 个月 vs preview 2 周是天壤之别)(3) 退役后权重是否保存?(Anthropic 公开承诺永久保存所有公开发布模型的权重并发布”保存报告”,来源:anthropic.com/research/deprecation-commitments——这是一个被低估的选型差异点)。
复现台上:任何 AI 实验/评测,记录必须包含模型快照 ID + 评估日期 + temperature + system prompt 版本四件套,且用快照而非别名。学术界的复现危机(Angermeir et al. 2025, arXiv:2510.25506:抽查 85 篇 LLM 论文,仅 18 篇提供产物且用 OpenAI 模型,其中仅 5 篇可执行,零篇实现完整复现)的首要技术原因就是”用了移动别名”。PM 的复现纪律和学者的一模一样。
§7 与已有节点的关系
- 本节点对照 幻觉:幻觉讲的是模型在单一时间点输出与事实不符;时间性讲的是模型行为在时间轴上漂移。两者正交——一个稳定的模型可以稳定地幻觉,一个不幻觉的模型也会漂移。本节点是对”AI 不确定性”家族的一次维度补缺:把”时间维度的不确定性”从”输出维度的不确定性”里单独剥出来命名。
- 本节点与 m209 - 推理成本控制手册 形成对话关系:m209 讲”如何用模型路由、快照选择、缓存控制推理成本”,本节点指出这些工程手段同时是时间性管理工具——用快照不只省钱核算,更是锁行为;但 m209 不复述,本节点只补”成本视角之外的稳定性视角”这一层。
- 本节点为本专题后续节点提供概念底座:静默更新/行为漂移/快照-别名/弃用四个术语在此钉死,代际演化、架构剖面、实例剖解节点直接复用,不再重新定义。
§8 关联节点
核心(必读)
- m209 - 推理成本控制手册 —— 快照选择/模型路由的成本与稳定性双重视角
- 幻觉 —— 输出维度不确定性 vs 时间维度不确定性的正交辨析
- Agent —— Agent 多步链路对单步行为漂移的放大效应(本专题后续展开)
- Claude / OpenAI —— 两家弃用政策与权重保存承诺的对照
- ChatGPT —— GPT-4o 谄媚事件的产品级载体
延伸(可选)
- Scaling Laws —— 能力随训练规模演化的”正向时间性”,与本专题”失控时间性”互补
- 0117社会学 —— 平台权力不对称与依赖关系的社会学接口
- AI PM 知识图谱·总索引 —— 回到总图
待建概念清单(死链降级登记)
以下概念在本节点行文中出现但 vault 中暂无确认存在的独立节点,已降级为普通文本,登记待建,不在主库建 stub:
- 静默更新 / Silent Update(本专题核心术语,建议建概念卡)
- 行为漂移 / Behavioral Drift(同上)
- 快照与别名 / Snapshot vs Alias(同上)
- 模型弃用 / Deprecation(同上)
- 供应链风险管理 / Supply Chain Risk Management(跨域框架,可链至 0133 经济学族)
- 平台包络 / Envelopment(平台经济学,建议建概念卡或链至 0117社会学)
修订日志
- R1(2026-06-07):首稿。建立四术语谱系(静默更新/行为漂移/快照-别名/弃用),四件套判断主轴(别名进生产/prompt 当稳定资产/漂移单向假设/自托管免疫幻觉),供应链风险管理跨域框架 + Rick 平台政策突变一手经验迁移,OpenAI Welinder 对手立场”接受+边界”回应。核心数据接地:Chen et al. 2023(arXiv:2307.09009,84%→51%)、GPT-4o 谄媚事件(OpenAI 官方)、弃用政策(OpenAI/Anthropic 官方文档)、复现危机(Angermeir 2025 / Vaugrante 2024 / Khatchadourian 2025)。