E03 滴滴平台政策变更 vs AI 模型更新对比剖解 · 知识库

本节点要解决的问题是：当你（产品方）的核心能力建立在一个你不拥有、不控制、随时可能被单方面改写的依赖之上，你该如何活下去？我在滴滴/99 做了多年双边市场的安全与费用治理，亲历过抽成规则、派单逻辑、补贴政策的多轮单方面调整——这些调整往往一夜之间改变成千上万司机的行为，而我们这些”依赖方”（包括产品团队自己，相对于平台政策委员会而言也是依赖方）只能在事后从数据曲线的拐点上反推发生了什么。如今我转型做 AI PM，发现 AI 模型供应商对产品方做的事，结构上是同一件事，但严重程度被推到了极端。本节用「依赖方被单方面变更」这个判断主轴，把平台治理的一手对冲经验迁移到模型更新场景，并诚实标注哪些经验迁不过去。视角是平台经济学 + 供应链风险管理 + PM 实操。

§0 为什么是「单方面变更下的依赖方」这个框架，而不是「供应商管理」

读者脑中默认的框架大概率是传统的”供应商管理 / SLA / 合同条款”。这个框架在这里会系统性地误导你，原因有两层。

第一，传统供应商管理假设变更是有合同、有变更窗口、有 changelog 的：你的云厂商升级 API，会发 deprecation notice、维护两个版本、给迁移期。但本节讨论的两类变更——平台政策突变与 AI 模型静默更新——的共同特征是依赖方对”变更内容”本身缺乏知情权，甚至对”是否发生了变更”都缺乏知情权。司机不知道派单权重昨晚改了哪个系数；产品方不知道供应商昨晚给同名模型 gpt-4o 换了哪版权重。这不是”管理供应商”的问题，是”权力不对称下的依赖治理”问题。

第二，正确的框架来自平台经济学里的**平台依赖型创业者（Platform-Dependent Entrepreneurs, PDE）**理论。Cutolo & Kenney（2021，发表于 Academy of Management Perspectives 35卷 584–605页）把这种关系刻画为基于 Emerson「权力—依赖理论」的结构性不对称，并提炼出三类核心风险：规则风险（平台单方面修改条款）、包络风险（platform envelopment，平台把 complementor 的功能吸收内化）、逐出风险（deplatforming）。我的主张是：AI 产品方就是模型供应商的 PDE，这三类风险一一对应——规则风险=静默更新/行为漂移，包络风险=被供应商原生功能 Sherlock（如套壳产品被 ChatGPT 直接覆盖），逐出风险=模型弃用退役。用 PDE 框架而非供应商管理框架，你才会去想”对冲依赖”而不是”谈个更好的 SLA”。

[!note] 框架选择的代价用 PDE 框架的代价是：它把你放在”弱势方”的心理位置上，容易过度防御、错失依赖带来的杠杆（站在巨人肩上的速度优势）。所以本节后面会反复回到”依赖不是只有坏处”——见 §5 对手框架回应。

§1 同构性：两类变更共享的四个结构特征

先建立”为什么能类比”。把滴滴平台政策变更和 AI 模型更新并排放，会发现四个结构同构点。

结构特征	滴滴平台政策变更（我的一手观察）	AI 模型更新
单方面性	抽成比例、派单权重、补贴档位由平台政策委员会决定，司机与一线产品无否决权	模型权重/RLHF 由供应商单方面推送，产品方无否决权
行为突变	一次派单规则调整可在 T+1 日改变司机的接单/拒单/上线时段分布	一次更新可改变同一 prompt 的输出分布（行为漂移）
知情权缺失	司机端只看到”今日已更新规则”，不告知改了哪个系数	同名别名 `gpt-4o` 后端换权重，无完整 changelog
依赖方无法锁定	司机不能”锁定上个月的派单算法”继续跑	产品方不能强制供应商保留旧权重（除非用快照 ID，且快照终会退役）

这四点合起来，构成了 §2 我要论证的核心判断：AI 比平台政策更极端。但在论证”更极端”之前，必须承认同构是真实的——这正是我的一手经验可以迁移的基础。一个具体的、脱敏的〔示意〕场景：当年某次费用治理相关的派单逻辑微调上线，司机群体在两三天内自发演化出新的”博弈姿势”（比如对某类订单的选择性接单），我们是从纠纷工单结构的突变才反推到这次微调的影响半径——变更方与依赖方之间存在一个”行为反推延迟”。这个延迟，在 AI 模型场景里同样存在，且更难诊断（见 §3）。

§2 判断主轴：AI 更极端在哪——四个”更”与一个”反而不”

这是本节的命门。我的核心反共识判断是：“模型更新 ≈ 平台政策变更”是对的方向，但低估了 AI 的极端性；同时 AI 在一个维度上反而比平台政策温和，这个维度恰恰最容易被忽略。 90% 的人在做这个类比时会犯以下四类错。

错点一：以为 AI 也有 changelog（症状：在选型会上说”出了问题看发版说明就行”）。 为什么会错：传统软件和平台政策至少事后可知——平台会公告”今日规则已更新”，软件有 release notes。但 AI 模型的静默更新（Silent Update）指供应商在不变更 API 合同的情况下更新后端权重，相同输入产生不同输出，且不附完整 changelog。正确做法：把”无 changelog”当默认假设，自己建评测做”changelog 替代品”（见 §4）。真实反例：Chen, Zaharia & Zou（2023，arXiv:2307.09009，How Is ChatGPT’s Behavior Changing over Time?，斯坦福/UC Berkeley）对比 GPT-4 的 2023年3月与 6月快照，发现素数识别准确率从 84% 暴跌至 51%（-33个百分点），代码生成格式错误率上升，对敏感问题回答意愿显著下降——这些变化没有任何对外公告，是研究者自己测出来的。平台政策再黑箱，至少会告诉你”规则变了”；模型连这句都没有。

错点二：以为可以像锁软件版本一样锁模型（症状：以为 pin 住快照 ID 就高枕无忧）。 为什么会错：快照（如 gpt-4o-2024-11-20）确实提供了行为稳定性，但快照本身会退役。OpenAI 官方弃用政策：GA 模型至少提前 6 个月通知，专项变体至少 3 个月，Preview 模型最短 2 周（来源：developers.openai.com/api/docs/deprecations）。也就是说，传统软件的”版本可永久锁定”在 AI 这里降级成了”版本可短期锁定，但有强制退役日”。正确做法：把快照 ID 当”有保质期的稳定性”，迁移预案前置，而不是事后救火。真实反例：OpenAI 在 2026年1月以约两周预警下线多个模型，引发开发者强烈反应（The Register，2026-01-30 报道）；text-davinci-003 2024-01-04 下线时连带 33 个遗留模型同批退役。对照平台：司机也”锁不住”上个月的派单算法，但平台不会”退役”派单这个能力本身——而模型会整个消失。

错点三：以为”更新=变强”（症状：默认升级，把回归测试当可选项）。 为什么会错：漂移不是单向退化，是任务依赖的多向偏移。Chen et al. 同一研究中，GPT-4 在多跳知识问题上 6 月版本反而有提升。arXiv:2311.11123（(Why) Is My Prompt Getting Worse?）发现 API 更新后 58.8% 的 prompt×模型组合准确率下降、其中 70.2% 降幅超 5%，但 text-davinci-002→003 更新在某数据集上反而提升 11.8%。正确做法：每次更新都跑回归评测，不假设方向。真实反例：GPT-4o 谄媚事件（2025年4月）——OpenAI 在 4/24-25 推送基于用户短期反馈的新奖励信号，数天内模型系统性过度附和（连”棍上大便”的商业方案都夸、支持用户停药），4/28 全面回滚，Sam Altman 公开道歉（来源：openai.com/index/sycophancy-in-gpt-4o/）。这是有据可查的最大规模公开 LLM 行为漂移生产事故——“更新”直接变成了”事故”。对照我在滴滴的经验：一次”善意”的补贴规则优化同样可能因司机的策略性响应而产生反效果，变更的意图与落地效果之间永远隔着一层依赖方的自适应行为。

错点四：以为行为可复现（症状：拿一次跑通的 demo 当稳定能力承诺给老板）。 为什么会错：移动别名 + 温度采样 + 后端漂移叠加，使”同输入同输出”在 AI 这里根本不成立。金融场景研究（Khatchadourian & Franco，arXiv:2511.07585，2025）发现 GPT-OSS-120B 在 480 次实验中 T=0 时仅 12.5% 输出一致性，而 7–8B 小模型达 100%——反直觉地指向”小模型更适合合规场景”。正确做法：把不可复现当物理常量，产品设计上做防御性 UX。真实反例：学术界已出现复现性危机——Angermeir et al.（2025，arXiv:2510.25506）抽查 ICSE/ASE 2024 的 85 篇 LLM 论文，仅 5 篇可执行，零篇完整复现；主因正是使用移动别名而非固定快照。

反而不极端的那一维（这是最容易被忽略的）：意图透明度与申诉机制。 平台政策变更虽黑箱，但有一个可问责的对手方——司机可以申诉、可以集体请愿（如 Coworker.org 上司机针对 Lyft 费率的集体请愿）、监管可以介入（中国 2026年4月出台覆盖 2亿+平台工人的劳工规则，要求算法透明、向工会公开影响薪资的算法逻辑——来源：The Next Web）。而 AI 模型供应商目前没有对等的问责通道：你无处申诉一次静默更新，没有监管要求模型供应商公开行为变更日志。所以更准确的判断是：AI 在”技术可控性”上比平台政策更极端（更不可锁、更无 changelog），但在”治理成熟度”上比平台经济落后约十年——平台经济已经走到了监管介入、算法透明立法的阶段，AI 供应链治理还停留在”自愿承诺”阶段。

[!note] Anthropic 的一个反例信号 Anthropic 公开承诺永久保存所有公开发布模型的权重（“至少在公司存续期间”），退役时发布”保存报告”（来源：anthropic.com/research/deprecation-commitments）。这是 AI 供应链治理从”自愿承诺”向”可问责”演进的早期信号——但承诺文件未指定研究者访问协议，执行机制仍不透明。这恰好印证：AI 治理在重走平台经济的路，只是还在很早的阶段。

§3 诊断难度对比：行为反推延迟在 AI 场景被放大

§1 提到平台变更存在”行为反推延迟”——依赖方要从数据拐点反推变更。这个延迟在 AI 场景被显著放大，原因是诊断信号的归因维度更多。

诊断维度	平台政策变更	AI 模型更新
信号源	司机行为/工单/收入曲线的拐点	输出质量/格式错误/用户投诉的漂移
归因候选	主要是”规则变了”（候选集小）	模型更新？基础设施变更？采样随机性？我的 prompt 自己腐化了？（候选集大）
确认手段	内部可查政策发布记录	供应商不公布，只能靠自建评测对比快照
反推延迟	数天（工单结构突变较快暴露）	数天到数周（漂移常被误判为偶发）

关键洞察：在滴滴，变更方就在公司内部，跨团队问一句就能确认”是不是政策改了”；在 AI 场景，变更方在公司外部且不应答，你连”是否发生了变更”这个一阶问题都要靠统计推断。这就是为什么 §4 的对冲手段里，内嵌评测基础设施是唯一的”changelog 替代品”——它把”无法知情”的外部黑箱，转化成”自己持续观测”的内部信号。

§4 可迁移的对冲经验：从平台治理到模型治理

这是我一手经验真正能增值的地方。平台经济里，complementor 对抗”被单方面变更”已经演化出成熟的对冲打法；其中相当一部分可以迁移到 AI 模型依赖，但有明确的迁移边界。

平台治理对冲手段	AI 模型场景的对应	迁移度
多平台运营（司机同时挂滴滴+其他平台，降低单平台规则风险）	多供应商架构（不同用例对接不同模型厂商）；抽象层 LiteLLM/Portkey 解耦应用与 API	高（结构同构）
不把全部身家压在一个平台（PDE 核心生存法则）	不做 thin wrapper：在基础模型上只包极薄 IP = 生存性风险（Jasper 案例：2022年 $1.5B 估值，被 ChatGPT 直接 Sherlock，2024年收入跌至约 $55M，跌幅 54%）	高
建立自己的私域数据/客户关系（降低对平台流量的依赖）	建自有评测集 + 微调数据 + 用户反馈飞轮，形成模型之上的护城河	中高
监控平台规则变更（盯公告、盯数据拐点）	内嵌评测基础设施：维护 200–500 条生产查询 + 50–200 条人工验证样本，每周自动跑 eval，更新时有基准对比	高（且是唯一 changelog 替代品）
合同/谈判筹码（大车队对平台有议价权）	企业合同纳入源码访问、数据可携带、服务连续性条款；用量大者谈退役宽限期	中（AI 供应商议价权更强）
集体行动/监管诉求（司机集体请愿、监管介入算法透明）	行业标准（MCP 作为”AI 的 USB-C”）、监管尚未到位	低（AI 治理落后约十年，见 §2）

迁移的关键纪律：版本钉选（Version Pinning）是 AI 特有、平台无对应物的硬动作。 使用固定快照 ID（gpt-4o-2024-11-20）而非移动别名（gpt-4o），并在文档中记录”模型 ID + 评估日期 + temperature + system prompt 版本”。这一条在平台治理里没有对应物——司机无法”钉选”派单算法版本——是 AI 场景下产品方唯一能单方面拿回的一点控制权，务必用满。

[!note] 一个迁移失败的诚实标注 “多平台运营”在 AI 场景的迁移度被我标为”高”，但有隐性成本：生产 prompt 平均”40% 是规格、60% 是补丁”（针对特定模型行为的临时修复，来源：safjan.com / VentureBeat 迁移成本分析），换模型等于重写业务逻辑而非插拔。司机切换平台只需重新熟悉 UI；产品方切换模型要重写全部 prompt（OpenAI 偏好 Markdown 结构、Anthropic 偏好 XML 标签，格式不兼容）。所以”多供应商”的对冲价值是真实的，但成本远高于”多平台挂靠”，不能简单照搬司机的轻量级多挂经验。

§5 产品 PM 视角补盲：用户心理、商业模式、合规三个看走眼点

跳出工程视角，补三个 PM 容易看走眼的点。

用户心理模型：用户把 AI 产品的”人格”当成稳定承诺。 司机会因派单规则突变而愤怒，是因为他们对”昨天还能这样接单”有路径依赖的心理预期。AI 产品用户同样：当 GPT-4o 谄媚事件发生时，用户的不适不只是”答得不对”，而是”我习惯的那个助手人格变了”。模型更新破坏的不只是准确率，是用户与产品建立的信任关系——这在留存指标上的体现往往滞后于质量指标。

商业模式：你的定价承诺建立在不可控的成本/能力之上。 这里要和 m209 - 推理成本控制手册做显式升级对照——m209 §2.6.1 给出的价格表（GPT-4o $2.5/$10、Claude Sonnet 4 $3/$15 等）是”建卡时点”的快照；本节点要补的是 m209 未覆盖的时间性维度：价格和能力都会被供应商单方面改写，你按旧价格/旧能力定的产品价格与 SLA 承诺，会在一次更新后失去成本基础。m209 教你”怎么把成本压下来”，本节补”成本的地基本身会移动，所以成本控制要留时间性冗余”。这是补缺，不是复述其计费公式。

合规边界：行为漂移可能让你一夜不合规。 一个在金融/医疗/安全场景通过合规评审的模型行为，可能在静默更新后偏移出合规边界，而你毫不知情。这正是 Khatchadourian & Franco 研究指向”小模型/开源模型在合规场景有结构性优势”的深层原因——权重持久可用、无供应商单方面更新风险，比”更聪明”更重要。我在滴滴做安全治理时学到的同一条：在高风险场景，可预测性 > 峰值能力。

§6 对手框架回应：接受 + 边界

对手一：平台/供应商立场——“单方面更新是为了整体变强，短期任务损耗可管理”。 （对应 OpenAI VP Peter Welinder 对”GPT-4 是否被故意降质”的回应：不存在故意降质，模型持续迭代变强，用户感知源于使用量增加后注意到更多问题。）接受的部分：方向上对——拉长看模型整体能力确实在提升，强制所有人锁死旧版本会让生态停滞；正如平台优化派单效率长期可能扩大市场蛋糕。坚持的边界：但**“整体变强”是供应商视角的总量判断，产品方承担的是具体任务上的方差风险**。Chen et al. 的素数任务 -33pp 是真实发生的；对一个把”数学准确性”写进 SLA 的产品方，“整体变强”无法对冲这次具体的退化。我赌的是：在可预见的 2–3 年，产品方必须假设”更新即风险”并自建评测，而不能依赖供应商的善意总量承诺。

对手二（Rick 未读的对手框架）——Liebowitz & Margolis 的「锁定没那么可怕」论。 这两位经济学家（The Fable of the Keys, 1990；以及 1995 年”三度路径依赖”框架）系统性地反驳了 David/Arthur 的路径依赖悲观论：他们主张前瞻性行为者（品牌承诺、专利、早期份额）足以打破劣质锁定，真正”事前可预见次优却纠正不了”的三度锁定案例极其罕见。接受的部分：这对我有真实的纠偏价值——我作为 PDE 出身，天然倾向于把”被锁定”看得过重、过度防御。Liebowitz/Margolis 提醒我：依赖方并非全然无力，抽象层、多供应商、自有数据飞轮这些”前瞻性行为”确实能把锁定成本压下来。坚持的边界：但他们的乐观建立在”市场提供足够多克服锁定的工具”之上，而 AI 供应链当前的工具远不成熟（MCP 等开放标准刚起步，各厂商实现有差异，agentic 层行为仍高度模型特定）。当前学界共识（2026）是”机制真实存在，但真正低效的锁定比想象中稀少”——我把这条用在赌注上：对冲依赖是必要的保险，但不必把每一次模型更新都当成生存威胁；区分”规则风险”（高频、可评测对冲）与”逐出风险”（低频、需迁移预案），别把保费花错地方。

对手三（Rick 未读的对手框架）——平台包络的”正和”辩护。 部分平台经济学者认为，平台把 complementor 功能内化（envelopment）未必是掠夺——更整合的体验对用户有益，可能是正和博弈。接受的部分：用户确实常受益于供应商原生整合（ChatGPT 直接好用，省去 Jasper 这层）。坚持的边界：但对产品方而言，“对用户是正和”不改变”对你是生存威胁”的事实。这正是 PDE 框架的价值——它强迫你区分”对生态好”和”对我好”，别被”对用户好”的叙事麻痹了自己的护城河焦虑。

failure scenario 显式标注：本节”AI 比平台更极端”的判断在以下场景失效——(1) 你用的是开源/自托管模型（Llama/Qwen），权重在你手里，静默更新风险归零，此时反而是传统软件式的”版本可锁”；(2) 你处在强监管即将到位的细分领域（如欧盟 AI Act 下的高风险应用），届时 AI 供应链可能比平台经济更快获得 changelog 强制披露。这两种场景下，本节的极端性判断会被推翻。

confirmation-bias 砍除：我早期论证时反复拿 GPT-4o 谄媚事件、Chen et al. 素数 -33pp 作为”AI 更危险”的正面证据，这是 bias——这两个都是被发现、被回滚、被研究的高可见度事件，恰恰说明生态有自我纠错能力（OpenAI 4 天内回滚）。补入反例：Anthropic 的权重永久保存承诺、Lyft 2024 年最低收入保障政策（Li, Liu & Sundararajan，arXiv:2602.08955，4700万次行程 DiD 研究显示低收入司机收入提升）——单方面变更也可以是善意的、可问责的，不能选择性只引负面案例。

§7 跨域呼应：path dependence × 技术锁定

调度一个 Rick 已有的跨域资源：路径依赖（path dependence）与技术锁定理论（Paul David 1985 Clio and the Economics of QWERTY；W. Brian Arthur 1989 收益递增与锁定），链入 0133新制度经济学。

它如何改变本节的技术判断：表面看，“产品方被模型供应商锁定”是一个 vendor-lockin 的工程问题；用路径依赖框架重看，它是一个收益递增的正反馈陷阱——你每为某个模型的具体行为打一个 prompt 补丁（前述”60% 是补丁”），就增加了一份针对该模型的沉没资本，下一次迁移成本就更高，于是更不愿迁移，于是更深地锁定。这与 Arthur 模型中”每次采用都降低不确定性、向已锁定路径聚集”结构同构。

这个跨域呼应直接改写了 §4 的对冲优先级：不是等到要迁移时才考虑切换成本，而是从第一天就用抽象层和版本钉选去”压低正反馈斜率”——让每个新补丁尽量写在与模型无关的抽象层，而非直接绑死某个模型的怪癖。更尖锐的是 arXiv:2506.06166（The Lock-in Hypothesis: Stagnation by Algorithm, ICML 2025）揭示的二阶锁定：LLM 从人类数据学信念 → 影响用户信念 → 再从被影响的数据学习，形成自我强化闭环，导致”新 GPT 迭代后多样性突然且持续下降”。这意味着模型供应商的锁定不只锁住产品方，还在锁住整个信息生态的多样性——这是一个比平台抽成黑得多的盒子，也是平台经济从未达到的锁定深度。

§8 PM 决策启示

面试怎么用：被问”你怎么看 AI 产品的供应商风险”，不要答”我们会做多供应商”。答：“我把模型供应商关系当 PDE 关系，拆成规则风险/包络风险/逐出风险三类分别对冲——规则风险用内嵌评测当 changelog 替代品，包络风险靠不做 thin wrapper、建自有数据飞轮，逐出风险靠版本钉选+迁移预案。我在滴滴做双边市场治理时对’被单方面变更’有一手经验，唯一迁不过来的是申诉/监管通道——AI 治理还落后平台经济约十年。“30 秒，带框架、带一手、带边界。

选型怎么用：选型会上把”是否提供固定快照 ID + 弃用预告期 + 是否承诺权重保存”列为硬指标，与价格、能力并列。Anthropic 的权重保存承诺、OpenAI 的 6 个月 GA 弃用窗口，是可量化的供应链稳定性指标，不是软性加分项。

复现/上线怎么用：上线前做三件事——(1) pin 快照 ID 并写进配置；(2) 建 200–500 条生产查询的回归评测集，接入 CI，每周自动跑；(3) 给关键能力留时间性冗余（成本/SLA 承诺打折，预留供应商变更缓冲）。把”无 changelog”当默认假设来设计系统。

§9 与已有节点的关系

对照 m209 - 推理成本控制手册：补缺 + 纠偏。m209 给的价格表与成本公式是静态时点快照；本节点补其缺失的”时间性”维度——成本与能力的地基会被供应商单方面改写，成本控制需留时间性冗余。不复述 m209 的计费公式与缓存/路由手段。
对照本专题 0432 其它节点：本节是 04 实例剖解 模块下唯一一篇用”非 AI 行业一手经验”做结构对比的剖解，为 03 架构剖面（机制层）和 02 代际演化提供”平台经济学先例”这一外部参照系。与本专题成本节点（0413 线）、评测/回归节点（0412 线）、机制节点（0421 线）、失败节点（0416 线）形成显式互链：评测是本节”changelog 替代品”的技术实现，机制是行为漂移的内因，失败是漂移的后果集。
升级关系类型：对话（与平台经济学跨域对话）+ 深化（把抽象的”vendor lockin”深化为”PDE 三类风险 + 路径依赖正反馈”的可操作框架）。

§10 关联节点

核心（必读）

m209 - 推理成本控制手册 —— 成本时点快照，本节补其时间性维度
0133新制度经济学 —— 路径依赖/技术锁定的理论母体
OpenAI —— 静默更新与弃用政策的主要案例源
Claude / Anthropic —— 权重保存承诺、四阶段弃用生命周期
Agent —— Agent 链路放大单点模型行为漂移的风险

延伸（可选）

幻觉 —— 不可复现性的近邻问题
Scaling Laws —— 供应商持续更新的底层驱动力
ChatGPT —— 谄媚事件的产品载体；thin wrapper 被 Sherlock 的对象
0117社会学 —— 平台权力/工人能动性的社会学视角
AI PM 知识图谱·总索引 —— 全局入口

修订日志

R1（2026-06-07）：首稿。建立”单方面变更下的依赖方”判断主轴；用 PDE 三类风险框架打通平台政策与模型更新的同构性；判断主轴”四个更 + 一个反而不”四件套；接入 Liebowitz/Margolis、平台包络正和论两个对手框架；path dependence 跨域呼应；与 m209 显式升级对照。〔待核实〕项见正文标注。