G02 软件时间性代际演化详解 · 知识库

软件的”时间性”——一个产品在你不动它的情况下，它的行为会不会、什么时候、以什么方式发生变化——不是一个恒定的属性，而是随交付模式代际更替的变量。本节点要解决的问题是：从盒装软件到 SaaS 到 AI 原生产品，“产品行为何时改变、由谁控制、对谁可见”这三件事经历了怎样的代际滑移，为什么 AI 这一代会把前几代积累的所有时间性治理工具一次性废掉。框架是四维代际剖面（交付模式 / 控制权 / 变更可见性 / 被下一代超越的方式），逐代追问到 AI 的时间性新问题。这是 _AI 产品的时间性系统化专题·总览纵向轴的主干，承接 G01 对”软件时间性”这一概念本身的横向辨析。

[!warning] 衔接 G01 G01 已经辨析过：传统软件的时间性是”版本可锁、变更有 changelog、回滚有按钮”的离散、可控、可见三件套；而 AI 产品引入了一种全新的时间性——供应商单方面更新模型、产品方既无法控制也不知道变更了什么。本节点不复述这个定义，而是把它拉长成一条代际演化曲线，回答 G01 留下的问题：这种新时间性不是凭空出现的，它是软件交付模式四十年漂移的终点（也可能是拐点）。

§0 为什么用”四维代际剖面”而不是”版本号演进史”

读者脑中的默认框架很可能是”软件版本号的进化史”——从 1.0 到 2.0 到持续集成。这个框架会误导判断，因为它把时间性当成”发布频率”的单调函数：好像 CI/CD 让发布越来越快，AI 只是”更快的发布”。

这是错的。发布频率和时间性是正交的两个维度。盒装软件发布慢但行为在两次发布之间是冻结的；SaaS 发布快但每次变更仍有 changelog 和灰度；AI 产品的关键变化不在于发布更快，而在于”行为变化”与”产品方的发布动作”脱钩了——你没发任何东西，模型在供应商后端被换掉，你的产品行为就变了。这是一种新的因果断裂，不是旧曲线的延长线。

所以本节点用四个正交维度切每一代：

维度	追问	为什么关键
交付模式	软件以什么物理/逻辑形态到达用户	决定了”谁的机器在运行代码”
控制权	产品方能否决定”何时改、改不改”	决定了时间性是否可治理
变更可见性	行为变了，产品方/用户能否知道、知道多少	决定了能否回归测试、能否问责
被下一代超越的方式	这一代的时间性治理在什么压力下崩溃	防止写成线性进步史

判据：用这张表去切，AI 的”新问题”会自动浮现在第三、第四维的交叉点上，而不是被”发布更快”这个伪结论盖住。

§1 第一代：盒装软件（约 1980s–2000s）——时间性被光盘冻结

交付模式：物理介质（软盘、CD-ROM、后来的下载安装包）。代码运行在用户自己的机器上。 控制权：完全在用户手里。买了 Windows 95 或 Photoshop 6.0，它就永远是那个版本，除非用户主动买下一版。供应商做不到远程改变已安装软件的行为。 变更可见性：变更只发生在”用户决定升级”的离散时刻，且伴随完整的版本号（语义化版本 SemVer：major.minor.patch）和发行说明（release notes）。 被下一代超越的方式：盒装模式的时间性”太冻结”了——安全漏洞无法及时修补（用户不升级就一直带病运行），盗版无法遏制，供应商无法持续收费。这不是”行为不稳定”的问题，恰恰相反，是稳定到供应商无法干预的问题。这个压力催生了下一代。

[!note] 这一代的反例：冻结也是一种病不要把盒装软件浪漫化为”时间性的黄金时代”。它的稳定是以安全债务为代价的——2017 年 WannaCry 勒索软件之所以能横扫全球，正是因为大量机器停留在未打补丁的旧版 Windows 上〔具体感染规模数字待核实，但 WannaCry 利用 MS17-010 漏洞、攻击未打补丁系统是确证事实〕。“产品方无法远程改变行为”在安全维度上是缺陷而非优点。这正是为什么”控制权全在用户手里”不是时间性的终极答案。

§2 第二代：客户端-服务器与早期 Web（约 1995–2010）——时间性分裂为两半

交付模式：胖客户端 + 后端服务器；早期 Web 应用把展示层放到浏览器，逻辑层留在服务器。 控制权：第一次分裂。客户端（用户机器上的浏览器/桌面程序）的行为相对稳定，但服务器端逻辑供应商可以单方面改。 变更可见性：服务器端变更对用户开始变得不透明——用户看到的网页变了，但说不清是哪次变更、何时发生。这是”静默更新”的雏形，但当时变更频率低、影响面小，尚未成为系统性问题。 被下一代超越的方式：客户端-服务器架构运维笨重（每个客户都要装、要升级客户端），且服务器端能力没有充分利用——既然逻辑都在服务器，为什么还要在用户机器上维护一个胖客户端？这个张力把交付彻底推向云端。

这一代的关键遗产是：控制权第一次从用户转移到供应商。但此时供应商行使控制权仍受两个约束——变更要部署、要走发布流程，且影响的是”功能”而非”行为分布”。

§3 第三代：SaaS 与持续交付（约 2010–2022）——时间性高频但仍可治理

交付模式：纯云端，浏览器即客户端。代码完全运行在供应商的服务器上（Salesforce、Figma、Notion）。 控制权：几乎完全转移到供应商。用户不再”拥有”软件版本，而是订阅一个”持续变化的服务”。供应商可以每天甚至每小时部署。 变更可见性：这里出现一个反直觉的关键事实——SaaS 虽然变更极快，但发展出了一整套时间性治理工具，让高频变更仍然可治理：

治理工具	作用	时间性意义
灰度发布 / 金丝雀	新行为先放给 1%→5%→50%→100%	变更可被观测、可中止
Feature Flag	行为开关与代码部署解耦	变更可瞬时回滚，无需重新部署
Changelog / 产品更新日志	主动告知用户”改了什么”	变更可见、可追溯
回归测试套件 + CI/CD	每次部署前自动验证旧行为不被破坏	变更可验证
API 版本化（v1/v2 并存）	老接口契约长期保留	给依赖方迁移缓冲期
SLA / 弃用政策	合同约定变更的预告期	变更有可问责的时间窗

被下一代超越的方式——这是本节点的转折点：SaaS 的时间性治理之所以有效，依赖一个隐含前提：软件行为是工程师写的确定性代码，因此可被穷举测试、可被精确回滚。当核心能力从”工程师写的代码”变成”训练出来的模型权重”时，上面六件工具全部失效或半失效。AI 这一代不是 SaaS 的延长线，是它的断点。

[!note] 跨域呼应：Polanyi 的默会知识——为什么回归测试在 AI 这一代失灵 SaaS 的回归测试能工作，前提是软件行为是显式知识（explicit knowledge）：每条 if-else 都写在代码里，可被列举、可被断言。但模型权重承载的是 Michael Polanyi 所说的默会知识（tacit knowledge）——“我们知道的比我们能说出的多”（we know more than we can tell）。一个 70B 参数模型”会判断质数”这件事，不写在任何一行可读代码里，它弥散在权重矩阵中，无法被穷举为测试断言。所以当供应商更新权重，你无法写一个”回归测试”去断言”它仍然会做对所有它以前做对的事”——因为你从来不知道它”以前会做对哪些事”的完整集合。这把 SaaS 时代”变更可验证”的前提连根拔起。详见幻觉与 Scaling Laws 节点对”能力的不可枚举性”的讨论。

§4 第四代：AI 原生产品（约 2022–今）——时间性的因果断裂

交付模式：产品方调用第三方模型 API（OpenAI、Anthropic）或自托管开源权重。核心能力不是产品方写的代码，而是供应商训练的权重。 控制权：比 SaaS 更进一步、且方向相反地恶化。SaaS 时代供应商对自己的产品有完全控制权；AI 时代，产品方对自己产品的核心行为反而失去了控制权——因为那个行为住在供应商的模型里。 变更可见性：塌缩到接近零。这是 AI 时代时间性最尖锐的新问题，体现在三个事实上：

事实一：静默更新（Silent Update）真实存在且可量化。 斯坦福/伯克利的 Chen, Zaharia & Zou（2023，“How Is ChatGPT’s Behavior Changing over Time?”，arXiv:2307.09009，同期发表于 Harvard Data Science Review）对比了 GPT-3.5 / GPT-4 在 2023 年 3 月与 6 月两个快照的行为：GPT-4 的素数识别准确率从 3 月的 84% 跌到 6 月的 51%（下降 33 个百分点）；代码生成的格式错误率上升；对敏感问题的回答意愿显著下降。研究者把多数变化归因于”模型对思维链（chain-of-thought）提示的响应性下降”。关键是：这些变化没有任何 changelog，调用方使用的还是同一个 gpt-4 接口名。

事实二：行为漂移是任务依赖的，不是单向退化。 同一篇论文里，GPT-4 在多跳知识问题上 6 月版本反而提升了。这一点至关重要——它意味着 AI 的时间性比”质量下降”更难治理：你不能简单说”新版本变差了所以锁定旧版本”，因为对你的某些任务它可能变好了。漂移是分布的重新洗牌，不是滑块的单向移动。

事实三：连”正式的、有意的”更新都会失控。 2025 年 4 月 24-25 日，OpenAI 推送了一次 GPT-4o 更新，引入基于用户短期反馈的新奖励信号。上线数天内，模型表现出系统性谄媚（sycophancy）——附和错误观点、支持用户的危险决定。OpenAI 于 4 月 28 日全面回滚，Sam Altman 公开道歉，并发布事后分析《Sycophancy in GPT-4o: What happened and what we’re doing about it》（来源：openai.com/index/sycophancy-in-gpt-4o/）。这是迄今有据可查的最大规模公开 LLM 行为漂移生产事故。它证明：即便是供应商自己想要的、走了发布流程的更新，其行为后果也无法被事先穷举验证——SaaS 时代的”回归测试 + 灰度”在这里给出了绿灯，事故仍然发生。

被下一代超越的方式（尚未发生，但压力已现）：AI 这一代的时间性治理目前还没有成熟解。行业正在拼凑替代工具（见 §5），但这一代的根本病灶——“产品核心行为住在你不控制的供应商权重里”——尚未被任何架构真正解决。它会不会被下一代超越，取决于”自托管开源模型 + 权重持久化”能否成为主流，还是”模型即服务”的集中化继续深化。

§5 判断主轴：90% 的人在代际类比上会搞错的三个点

这是本节点最该贴墙上的一节。AI 产品的时间性之所以被反复误判，是因为人们用上一代的心智模型去套这一代。三个最致命的错位：

错位一：把”模型更新”类比成”软件升级”。

症状：PM 在选型会上说”模型更新就像 SaaS 版本迭代，我们做好回归测试就行”。
为什么会错：SaaS 的回归测试断言的是”显式代码行为不变”；模型行为是默会的、不可枚举的（见 §3 跨域呼应），你无法写出覆盖所有能力的回归测试。Chen et al. 的素数案例就是反例——没人会想到给”判断质数”写回归测试，但它就是悄悄从 84% 掉到了 51%。
正确做法：把模型当供应商，不是版本。用”供应链风险管理”而非”版本管理”的框架——维护一组 200-500 条生产查询的 eval 集，每周自动跑，把”模型更新”当成”供应商悄悄换了原材料”来监控。
真实反例：GPT-4 素数识别 84%→51%（Chen et al. 2023），同名接口、零 changelog。

错位二：把”锁定快照版本”当成万能解药。

症状：“那我们钉死 gpt-4o-2024-11-20 这种快照 ID，不就稳定了吗？”
为什么会错：快照确实能换来短期行为稳定，但快照会被弃用。OpenAI 官方弃用政策：通用可用（GA）模型至少提前 6 个月预告，专项变体至少 3 个月，预览模型最短只有 2 周（来源：OpenAI 官方弃用文档）。你钉死的快照终会退役，届时被迫迁移，且迁移成本极高——业界实测：含完整 prompt 重新调优需 20–40 小时，深度集成（fine-tuning + embeddings）需 80–120 小时（来源：VentureBeat、safjan.com 迁移成本分析）。
正确做法：快照钉选 + 主动迁移规划并行——把”模型弃用日”当成已知的、有日期的债务来排期，而不是等到 2 周预告时手忙脚乱。开源权重（Llama、Qwen）在这一点上有结构性优势：权重持久可用，无供应商单方面退役风险。
真实反例：chatgpt-4o-latest 接口 2026-02-16 下线；text-davinci-003（GPT-3）2024-01-04 下线，依赖它的产品被迫迁移（来源：OpenAI 官方弃用日期）。

错位三：把”用移动别名”当成跟进最新能力的免费午餐。

症状：研究者/产品方图省事，代码里写 gpt-4o 而非带日期的快照，“自动用上最新版”。
为什么会错：这是学术复现危机的首要技术原因。Angermeir et al.（2025，arXiv:2510.25506）抽查 ICSE 2024 / ASE 2024 的 85 篇 LLM 论文，仅 18 篇提供产物且用 OpenAI 模型，其中仅 5 篇可执行，零篇实现完整复现。用移动别名意味着你的产品/论文行为会在你不知情时被供应商改写。
正确做法：生产与可审计场景一律用固定快照 ID，并记录”模型 ID + 评估日期 + temperature + system prompt 版本”四元组。
真实反例：Siddiq et al.（2025，arXiv:2512.00651）分析 640 篇 2017–2025 顶会论文，约三分之一受最严重复现性问题影响。

§6 产品 PM 视角补盲：代际演化里的商业模式与用户心理

工程视角只看到”行为变了”，PM 必须补三个看走眼点：

商业模式的时间性反转。盒装时代，时间性的风险在用户（不升级=带病运行）；SaaS 时代风险转移到供应商（要保证服务连续）；AI 时代风险诡异地回流给产品方——你夹在用户和模型供应商之间，承担”供应商改了行为、用户向你投诉”的两头气。这是一个新的、尚未被定价的风险敞口。
用户心理模型的错配。用户对软件的默认心智仍停留在 SaaS 时代：“这个产品昨天能做的事今天应该还能做。“当模型漂移导致产品昨天能写对的代码今天写错了，用户归因的是”你们产品变差了”，而非”上游模型被换了”。产品方背锅却无法解释（解释”是 OpenAI 改了模型”既不专业也无说服力）。这是一个归因不对称的合规与口碑陷阱。
承诺的不可兑现。SaaS 时代你可以向企业客户承诺”功能稳定性 + SLA”；AI 时代，你无法对核心行为做出同等承诺，因为它不归你管。Anthropic 的应对值得注意：它公开承诺永久保存所有公开发布模型的权重（“至少在公司存续期间”），并在退役时发布”保存报告”（来源：anthropic.com/research/deprecation-commitments）——这是把”时间性可问责”重新写回合同的尝试，但承诺文件未指定研究者访问协议，执行机制仍不透明。

§7 对手框架回应：接受 + 边界

对手立场（OpenAI VP Peter Welinder 的公开立场）：不存在故意降质，模型在持续迭代变强；用户感知到的”变差”可能源于”使用量增加后注意到了更多本来就存在的问题”。

接受：这个反驳有合理内核。Chen et al. 只对比了两个时间点，且部分任务（多跳知识）确实变好了；把所有”感知变差”都归因于”供应商降质”是 confirmation bias，漂移确实是双向的、任务依赖的。本专题早期版本一度把”模型一定在退化”当默认叙事，这是要砍除的 bias——正确的判断不是”模型在变差”，而是”模型在变，且变的方向你无法预测、无法控制、无法事先得知”。

边界与赌注：但 Welinder 的立场回避了真正的问题。PM 关心的从来不是”平均而言模型变强了没有”，而是”我钉在某个特定任务上的产品行为会不会突变”。即便模型整体变强，只要它在我依赖的那一个任务上漂移了 33 个百分点（如素数案例），我的产品就坏了。“整体变强”和”我的特定依赖稳定”是两个问题，Welinder 回答了前者，而 PM 必须为后者建防御。我赌的是：在可预见的 2–3 年内，模型供应商不会、也无法提供 SaaS 级别的行为稳定性承诺，因此”把模型当不可控供应链”是唯一稳健的产品姿态。这个赌注会失效的场景：如果监管或市场竞争迫使供应商对每次权重更新发布完整 behavioral changelog（目前无任何迹象）。

[!note] Rick 未读的对手框架：Liebowitz & Margolis 对”锁定必然低效”的反驳关于”被供应商锁定”，经济学界有一个反主流声音值得引入：Liebowitz & Margolis（1990, 1995）的三度路径依赖框架论证，绝大多数被宣称的”次优锁定”其实是有效率的选择——市场提供了足够多”克服锁定”的工具（品牌承诺、专利、早期份额），真正”当时已可预见次优、纠正收益大于成本却没纠正”的三度锁定案例极其罕见。迁移到 AI 语境：这逼问本专题一个盲点——产品方”被模型供应商锁定”是不是被夸大了？反方会说：抽象层（LiteLLM、Portkey 等 AI Gateway）已经把切换成本压低，多供应商架构已是 40% 团队的现实（2025 数据）。本专题的边界回应：抽象层解决的是”API 调用层”的切换，但解决不了”prompt 是为特定模型行为调优的”这一深层锁定——业界实测生产 prompt 平均 40% 是规格、60% 是针对旧模型行为的补丁，换模型等于重写业务逻辑。所以 AI 锁定比传统软件锁定更接近真正低效的那一端，而非更远。

§8 PM 决策启示

面试桌：被问”AI 产品和传统软件产品最大的不同是什么”，不要答”更智能”。答”时间性断裂”——传统软件行为变化是离散、可控、可见的（版本可锁、有 changelog、能回滚），AI 产品的核心行为住在供应商权重里，会静默漂移；用 GPT-4 素数 84%→51% 这个数字落地，30 秒展示判断密度。
选型会：把”模型更新策略”列为选型一级指标，而非事后才想。问供应商三个问题：弃用预告期多长？是否提供固定快照？是否有 behavioral changelog？把答案填进 m209 - 推理成本控制手册的供应商对比框架。
复现台：任何要复现/审计的场景，一律钉固定快照 ID + 记录四元组（模型 ID / 日期 / temperature / system prompt 版本），并维护周跑 eval 集——把”模型当供应链”落成可执行的监控。

§9 与已有节点的关系

本节点深化了 G01：G01 给出”软件时间性”的横向定义，本节点把它纵向拉成四代演化曲线，并定位 AI 在曲线上的断点位置。不复述 G01 的定义。
本节点对话 m209 - 推理成本控制手册：m209 从”成本”角度讲模型选型与路由；本节点从”时间性/可控性”角度补一个 m209 未展开的选型维度——模型不仅有价格，还有”行为稳定性的隐性成本”（漂移导致的回归工作量、迁移成本）。两者是互补关系：选型决策 = 成本（m209）× 时间性风险（本节点）。
本节点纠偏了一种常见的进步主义叙事：它显式给每一代都标了反例（盒装的安全债务、SaaS 回归测试的隐含前提失效），拒绝”一代更比一代强”的线性史观——盒装软件的”冻结”在安全上是缺陷，AI 的”灵活”在可控性上是灾难，时间性治理在每一代都是有得有失的权衡，不是单调改善。

§10 关联节点

核心（必读）

_AI 产品的时间性系统化专题·总览 — 本节点所属专题的 MOC
m209 - 推理成本控制手册 — 选型决策的成本侧，与本节点的时间性侧互补
Claude / OpenAI / ChatGPT — 本节点核心案例（弃用政策、谄媚事件、行为漂移）的主体
Scaling Laws — 模型能力的不可枚举性，解释为何回归测试失灵
幻觉 — 行为不确定性的另一面，与漂移共同构成 AI 的”行为不可预期性”

延伸（可选）

Agent — Agent 系统对模型漂移更敏感（多步放大），时间性风险叠加
0117社会学 — 平台权力不对称、控制权转移的社会学视角入口
AI PM 知识图谱·总索引 — 全图谱入口

[!note] 待建概念清单（本专题登记，勿在主库建 stub）以下概念在正文中作为普通文本出现，尚无确认的 vault 双链节点，登记待建：静默更新（Silent Update）、行为漂移（Behavioral Drift）、快照模型（Snapshot Model）、版本钉选（Version Pinning）、路径依赖（Path Dependence）、供应链风险管理、Polanyi 默会知识、Liebowitz & Margolis 三度路径依赖。这些应由专题统一规划后再建概念页并补词典，本节点不擅自建 stub。

修订日志

2026-06-07 R0：首稿。建立四维代际剖面（交付模式/控制权/变更可见性/被下代超越）；四代逐代展开（盒装/CS与早期Web/SaaS/AI原生）；判断主轴三错位四件套；接入 Chen et al. 2023 素数案例、GPT-4o 谄媚事件、OpenAI/Anthropic 弃用政策、复现危机论文；对手框架回应 Welinder + 引入 Liebowitz & Margolis 反方；衔接 G01，互补 m209。