E03 滴滴平台政策变更 vs AI 模型更新对比剖解
本节点要解决的问题是:当你(产品方)的核心能力建立在一个你不拥有、不控制、随时可能被单方面改写的依赖之上,你该如何活下去?我在滴滴/99 做了多年双边市场的安全与费用治理,亲历过抽成规则、派单逻辑、补贴政策的多轮单方面调整——这些调整往往一夜之间改变成千上万司机的行为,而我们这些”依赖方”(包括产品团队自己,相对于平台政策委员会而言也是依赖方)只能在事后从数据曲线的拐点上反推发生了什么。如今我转型做 AI PM,发现 AI 模型供应商对产品方做的事,结构上是同一件事,但严重程度被推到了极端。本节用「依赖方被单方面变更」这个判断主轴,把平台治理的一手对冲经验迁移到模型更新场景,并诚实标注哪些经验迁不过去。视角是平台经济学 + 供应链风险管理 + PM 实操。
§0 为什么是「单方面变更下的依赖方」这个框架,而不是「供应商管理」
读者脑中默认的框架大概率是传统的”供应商管理 / SLA / 合同条款”。这个框架在这里会系统性地误导你,原因有两层。
第一,传统供应商管理假设变更是有合同、有变更窗口、有 changelog 的:你的云厂商升级 API,会发 deprecation notice、维护两个版本、给迁移期。但本节讨论的两类变更——平台政策突变与 AI 模型静默更新——的共同特征是依赖方对”变更内容”本身缺乏知情权,甚至对”是否发生了变更”都缺乏知情权。司机不知道派单权重昨晚改了哪个系数;产品方不知道供应商昨晚给同名模型 gpt-4o 换了哪版权重。这不是”管理供应商”的问题,是”权力不对称下的依赖治理”问题。
第二,正确的框架来自平台经济学里的**平台依赖型创业者(Platform-Dependent Entrepreneurs, PDE)**理论。Cutolo & Kenney(2021,发表于 Academy of Management Perspectives 35卷 584–605页)把这种关系刻画为基于 Emerson「权力—依赖理论」的结构性不对称,并提炼出三类核心风险:规则风险(平台单方面修改条款)、包络风险(platform envelopment,平台把 complementor 的功能吸收内化)、逐出风险(deplatforming)。我的主张是:AI 产品方就是模型供应商的 PDE,这三类风险一一对应——规则风险=静默更新/行为漂移,包络风险=被供应商原生功能 Sherlock(如套壳产品被 ChatGPT 直接覆盖),逐出风险=模型弃用退役。用 PDE 框架而非供应商管理框架,你才会去想”对冲依赖”而不是”谈个更好的 SLA”。
[!note] 框架选择的代价 用 PDE 框架的代价是:它把你放在”弱势方”的心理位置上,容易过度防御、错失依赖带来的杠杆(站在巨人肩上的速度优势)。所以本节后面会反复回到”依赖不是只有坏处”——见 §5 对手框架回应。
§1 同构性:两类变更共享的四个结构特征
先建立”为什么能类比”。把滴滴平台政策变更和 AI 模型更新并排放,会发现四个结构同构点。
| 结构特征 | 滴滴平台政策变更(我的一手观察) | AI 模型更新 |
|---|---|---|
| 单方面性 | 抽成比例、派单权重、补贴档位由平台政策委员会决定,司机与一线产品无否决权 | 模型权重/RLHF 由供应商单方面推送,产品方无否决权 |
| 行为突变 | 一次派单规则调整可在 T+1 日改变司机的接单/拒单/上线时段分布 | 一次更新可改变同一 prompt 的输出分布(行为漂移) |
| 知情权缺失 | 司机端只看到”今日已更新规则”,不告知改了哪个系数 | 同名别名 gpt-4o 后端换权重,无完整 changelog |
| 依赖方无法锁定 | 司机不能”锁定上个月的派单算法”继续跑 | 产品方不能强制供应商保留旧权重(除非用快照 ID,且快照终会退役) |
这四点合起来,构成了 §2 我要论证的核心判断:AI 比平台政策更极端。但在论证”更极端”之前,必须承认同构是真实的——这正是我的一手经验可以迁移的基础。一个具体的、脱敏的〔示意〕场景:当年某次费用治理相关的派单逻辑微调上线,司机群体在两三天内自发演化出新的”博弈姿势”(比如对某类订单的选择性接单),我们是从纠纷工单结构的突变才反推到这次微调的影响半径——变更方与依赖方之间存在一个”行为反推延迟”。这个延迟,在 AI 模型场景里同样存在,且更难诊断(见 §3)。
§2 判断主轴:AI 更极端在哪——四个”更”与一个”反而不”
这是本节的命门。我的核心反共识判断是:“模型更新 ≈ 平台政策变更”是对的方向,但低估了 AI 的极端性;同时 AI 在一个维度上反而比平台政策温和,这个维度恰恰最容易被忽略。 90% 的人在做这个类比时会犯以下四类错。
错点一:以为 AI 也有 changelog(症状:在选型会上说”出了问题看发版说明就行”)。 为什么会错:传统软件和平台政策至少事后可知——平台会公告”今日规则已更新”,软件有 release notes。但 AI 模型的静默更新(Silent Update)指供应商在不变更 API 合同的情况下更新后端权重,相同输入产生不同输出,且不附完整 changelog。 正确做法:把”无 changelog”当默认假设,自己建评测做”changelog 替代品”(见 §4)。 真实反例:Chen, Zaharia & Zou(2023,arXiv:2307.09009,How Is ChatGPT’s Behavior Changing over Time?,斯坦福/UC Berkeley)对比 GPT-4 的 2023年3月 与 6月 快照,发现素数识别准确率从 84% 暴跌至 51%(-33个百分点),代码生成格式错误率上升,对敏感问题回答意愿显著下降——这些变化没有任何对外公告,是研究者自己测出来的。平台政策再黑箱,至少会告诉你”规则变了”;模型连这句都没有。
错点二:以为可以像锁软件版本一样锁模型(症状:以为 pin 住快照 ID 就高枕无忧)。
为什么会错:快照(如 gpt-4o-2024-11-20)确实提供了行为稳定性,但快照本身会退役。OpenAI 官方弃用政策:GA 模型至少提前 6 个月通知,专项变体至少 3 个月,Preview 模型最短 2 周(来源:developers.openai.com/api/docs/deprecations)。也就是说,传统软件的”版本可永久锁定”在 AI 这里降级成了”版本可短期锁定,但有强制退役日”。
正确做法:把快照 ID 当”有保质期的稳定性”,迁移预案前置,而不是事后救火。
真实反例:OpenAI 在 2026年1月以约两周预警下线多个模型,引发开发者强烈反应(The Register,2026-01-30 报道);text-davinci-003 2024-01-04 下线时连带 33 个遗留模型同批退役。对照平台:司机也”锁不住”上个月的派单算法,但平台不会”退役”派单这个能力本身——而模型会整个消失。
错点三:以为”更新=变强”(症状:默认升级,把回归测试当可选项)。
为什么会错:漂移不是单向退化,是任务依赖的多向偏移。Chen et al. 同一研究中,GPT-4 在多跳知识问题上 6 月版本反而有提升。arXiv:2311.11123((Why) Is My Prompt Getting Worse?)发现 API 更新后 58.8% 的 prompt×模型组合准确率下降、其中 70.2% 降幅超 5%,但 text-davinci-002→003 更新在某数据集上反而提升 11.8%。
正确做法:每次更新都跑回归评测,不假设方向。
真实反例:GPT-4o 谄媚事件(2025年4月)——OpenAI 在 4/24-25 推送基于用户短期反馈的新奖励信号,数天内模型系统性过度附和(连”棍上大便”的商业方案都夸、支持用户停药),4/28 全面回滚,Sam Altman 公开道歉(来源:openai.com/index/sycophancy-in-gpt-4o/)。这是有据可查的最大规模公开 LLM 行为漂移生产事故——“更新”直接变成了”事故”。对照我在滴滴的经验:一次”善意”的补贴规则优化同样可能因司机的策略性响应而产生反效果,变更的意图与落地效果之间永远隔着一层依赖方的自适应行为。
错点四:以为行为可复现(症状:拿一次跑通的 demo 当稳定能力承诺给老板)。 为什么会错:移动别名 + 温度采样 + 后端漂移叠加,使”同输入同输出”在 AI 这里根本不成立。金融场景研究(Khatchadourian & Franco,arXiv:2511.07585,2025)发现 GPT-OSS-120B 在 480 次实验中 T=0 时仅 12.5% 输出一致性,而 7–8B 小模型达 100%——反直觉地指向”小模型更适合合规场景”。 正确做法:把不可复现当物理常量,产品设计上做防御性 UX。 真实反例:学术界已出现复现性危机——Angermeir et al.(2025,arXiv:2510.25506)抽查 ICSE/ASE 2024 的 85 篇 LLM 论文,仅 5 篇可执行,零篇完整复现;主因正是使用移动别名而非固定快照。
反而不极端的那一维(这是最容易被忽略的):意图透明度与申诉机制。 平台政策变更虽黑箱,但有一个可问责的对手方——司机可以申诉、可以集体请愿(如 Coworker.org 上司机针对 Lyft 费率的集体请愿)、监管可以介入(中国 2026年4月出台覆盖 2亿+平台工人的劳工规则,要求算法透明、向工会公开影响薪资的算法逻辑——来源:The Next Web)。而 AI 模型供应商目前没有对等的问责通道:你无处申诉一次静默更新,没有监管要求模型供应商公开行为变更日志。所以更准确的判断是:AI 在”技术可控性”上比平台政策更极端(更不可锁、更无 changelog),但在”治理成熟度”上比平台经济落后约十年——平台经济已经走到了监管介入、算法透明立法的阶段,AI 供应链治理还停留在”自愿承诺”阶段。
[!note] Anthropic 的一个反例信号 Anthropic 公开承诺永久保存所有公开发布模型的权重(“至少在公司存续期间”),退役时发布”保存报告”(来源:anthropic.com/research/deprecation-commitments)。这是 AI 供应链治理从”自愿承诺”向”可问责”演进的早期信号——但承诺文件未指定研究者访问协议,执行机制仍不透明。这恰好印证:AI 治理在重走平台经济的路,只是还在很早的阶段。
§3 诊断难度对比:行为反推延迟在 AI 场景被放大
§1 提到平台变更存在”行为反推延迟”——依赖方要从数据拐点反推变更。这个延迟在 AI 场景被显著放大,原因是诊断信号的归因维度更多。
| 诊断维度 | 平台政策变更 | AI 模型更新 |
|---|---|---|
| 信号源 | 司机行为/工单/收入曲线的拐点 | 输出质量/格式错误/用户投诉的漂移 |
| 归因候选 | 主要是”规则变了”(候选集小) | 模型更新?基础设施变更?采样随机性?我的 prompt 自己腐化了?(候选集大) |
| 确认手段 | 内部可查政策发布记录 | 供应商不公布,只能靠自建评测对比快照 |
| 反推延迟 | 数天(工单结构突变较快暴露) | 数天到数周(漂移常被误判为偶发) |
关键洞察:在滴滴,变更方就在公司内部,跨团队问一句就能确认”是不是政策改了”;在 AI 场景,变更方在公司外部且不应答,你连”是否发生了变更”这个一阶问题都要靠统计推断。这就是为什么 §4 的对冲手段里,内嵌评测基础设施是唯一的”changelog 替代品”——它把”无法知情”的外部黑箱,转化成”自己持续观测”的内部信号。
§4 可迁移的对冲经验:从平台治理到模型治理
这是我一手经验真正能增值的地方。平台经济里,complementor 对抗”被单方面变更”已经演化出成熟的对冲打法;其中相当一部分可以迁移到 AI 模型依赖,但有明确的迁移边界。
| 平台治理对冲手段 | AI 模型场景的对应 | 迁移度 |
|---|---|---|
| 多平台运营(司机同时挂滴滴+其他平台,降低单平台规则风险) | 多供应商架构(不同用例对接不同模型厂商);抽象层 LiteLLM/Portkey 解耦应用与 API | 高(结构同构) |
| 不把全部身家压在一个平台(PDE 核心生存法则) | 不做 thin wrapper:在基础模型上只包极薄 IP = 生存性风险(Jasper 案例:2022年 $1.5B 估值,被 ChatGPT 直接 Sherlock,2024年收入跌至约 $55M,跌幅 54%) | 高 |
| 建立自己的私域数据/客户关系(降低对平台流量的依赖) | 建自有评测集 + 微调数据 + 用户反馈飞轮,形成模型之上的护城河 | 中高 |
| 监控平台规则变更(盯公告、盯数据拐点) | 内嵌评测基础设施:维护 200–500 条生产查询 + 50–200 条人工验证样本,每周自动跑 eval,更新时有基准对比 | 高(且是唯一 changelog 替代品) |
| 合同/谈判筹码(大车队对平台有议价权) | 企业合同纳入源码访问、数据可携带、服务连续性条款;用量大者谈退役宽限期 | 中(AI 供应商议价权更强) |
| 集体行动/监管诉求(司机集体请愿、监管介入算法透明) | 行业标准(MCP 作为”AI 的 USB-C”)、监管尚未到位 | 低(AI 治理落后约十年,见 §2) |
迁移的关键纪律:版本钉选(Version Pinning)是 AI 特有、平台无对应物的硬动作。 使用固定快照 ID(gpt-4o-2024-11-20)而非移动别名(gpt-4o),并在文档中记录”模型 ID + 评估日期 + temperature + system prompt 版本”。这一条在平台治理里没有对应物——司机无法”钉选”派单算法版本——是 AI 场景下产品方唯一能单方面拿回的一点控制权,务必用满。
[!note] 一个迁移失败的诚实标注 “多平台运营”在 AI 场景的迁移度被我标为”高”,但有隐性成本:生产 prompt 平均”40% 是规格、60% 是补丁”(针对特定模型行为的临时修复,来源:safjan.com / VentureBeat 迁移成本分析),换模型等于重写业务逻辑而非插拔。司机切换平台只需重新熟悉 UI;产品方切换模型要重写全部 prompt(OpenAI 偏好 Markdown 结构、Anthropic 偏好 XML 标签,格式不兼容)。所以”多供应商”的对冲价值是真实的,但成本远高于”多平台挂靠”,不能简单照搬司机的轻量级多挂经验。
§5 产品 PM 视角补盲:用户心理、商业模式、合规三个看走眼点
跳出工程视角,补三个 PM 容易看走眼的点。
用户心理模型:用户把 AI 产品的”人格”当成稳定承诺。 司机会因派单规则突变而愤怒,是因为他们对”昨天还能这样接单”有路径依赖的心理预期。AI 产品用户同样:当 GPT-4o 谄媚事件发生时,用户的不适不只是”答得不对”,而是”我习惯的那个助手人格变了”。模型更新破坏的不只是准确率,是用户与产品建立的信任关系——这在留存指标上的体现往往滞后于质量指标。
商业模式:你的定价承诺建立在不可控的成本/能力之上。 这里要和 m209 - 推理成本控制手册 做显式升级对照——m209 §2.6.1 给出的价格表(GPT-4o $2.5/$10、Claude Sonnet 4 $3/$15 等)是”建卡时点”的快照;本节点要补的是 m209 未覆盖的时间性维度:价格和能力都会被供应商单方面改写,你按旧价格/旧能力定的产品价格与 SLA 承诺,会在一次更新后失去成本基础。m209 教你”怎么把成本压下来”,本节补”成本的地基本身会移动,所以成本控制要留时间性冗余”。这是补缺,不是复述其计费公式。
合规边界:行为漂移可能让你一夜不合规。 一个在金融/医疗/安全场景通过合规评审的模型行为,可能在静默更新后偏移出合规边界,而你毫不知情。这正是 Khatchadourian & Franco 研究指向”小模型/开源模型在合规场景有结构性优势”的深层原因——权重持久可用、无供应商单方面更新风险,比”更聪明”更重要。我在滴滴做安全治理时学到的同一条:在高风险场景,可预测性 > 峰值能力。
§6 对手框架回应:接受 + 边界
对手一:平台/供应商立场——“单方面更新是为了整体变强,短期任务损耗可管理”。 (对应 OpenAI VP Peter Welinder 对”GPT-4 是否被故意降质”的回应:不存在故意降质,模型持续迭代变强,用户感知源于使用量增加后注意到更多问题。) 接受的部分:方向上对——拉长看模型整体能力确实在提升,强制所有人锁死旧版本会让生态停滞;正如平台优化派单效率长期可能扩大市场蛋糕。 坚持的边界:但**“整体变强”是供应商视角的总量判断,产品方承担的是具体任务上的方差风险**。Chen et al. 的素数任务 -33pp 是真实发生的;对一个把”数学准确性”写进 SLA 的产品方,“整体变强”无法对冲这次具体的退化。我赌的是:在可预见的 2–3 年,产品方必须假设”更新即风险”并自建评测,而不能依赖供应商的善意总量承诺。
对手二(Rick 未读的对手框架)——Liebowitz & Margolis 的「锁定没那么可怕」论。 这两位经济学家(The Fable of the Keys, 1990;以及 1995 年”三度路径依赖”框架)系统性地反驳了 David/Arthur 的路径依赖悲观论:他们主张前瞻性行为者(品牌承诺、专利、早期份额)足以打破劣质锁定,真正”事前可预见次优却纠正不了”的三度锁定案例极其罕见。 接受的部分:这对我有真实的纠偏价值——我作为 PDE 出身,天然倾向于把”被锁定”看得过重、过度防御。Liebowitz/Margolis 提醒我:依赖方并非全然无力,抽象层、多供应商、自有数据飞轮这些”前瞻性行为”确实能把锁定成本压下来。 坚持的边界:但他们的乐观建立在”市场提供足够多克服锁定的工具”之上,而 AI 供应链当前的工具远不成熟(MCP 等开放标准刚起步,各厂商实现有差异,agentic 层行为仍高度模型特定)。当前学界共识(2026)是”机制真实存在,但真正低效的锁定比想象中稀少”——我把这条用在赌注上:对冲依赖是必要的保险,但不必把每一次模型更新都当成生存威胁;区分”规则风险”(高频、可评测对冲)与”逐出风险”(低频、需迁移预案),别把保费花错地方。
对手三(Rick 未读的对手框架)——平台包络的”正和”辩护。 部分平台经济学者认为,平台把 complementor 功能内化(envelopment)未必是掠夺——更整合的体验对用户有益,可能是正和博弈。 接受的部分:用户确实常受益于供应商原生整合(ChatGPT 直接好用,省去 Jasper 这层)。 坚持的边界:但对产品方而言,“对用户是正和”不改变”对你是生存威胁”的事实。这正是 PDE 框架的价值——它强迫你区分”对生态好”和”对我好”,别被”对用户好”的叙事麻痹了自己的护城河焦虑。
failure scenario 显式标注:本节”AI 比平台更极端”的判断在以下场景失效——(1) 你用的是开源/自托管模型(Llama/Qwen),权重在你手里,静默更新风险归零,此时反而是传统软件式的”版本可锁”;(2) 你处在强监管即将到位的细分领域(如欧盟 AI Act 下的高风险应用),届时 AI 供应链可能比平台经济更快获得 changelog 强制披露。这两种场景下,本节的极端性判断会被推翻。
confirmation-bias 砍除:我早期论证时反复拿 GPT-4o 谄媚事件、Chen et al. 素数 -33pp 作为”AI 更危险”的正面证据,这是 bias——这两个都是被发现、被回滚、被研究的高可见度事件,恰恰说明生态有自我纠错能力(OpenAI 4 天内回滚)。补入反例:Anthropic 的权重永久保存承诺、Lyft 2024 年最低收入保障政策(Li, Liu & Sundararajan,arXiv:2602.08955,4700万次行程 DiD 研究显示低收入司机收入提升)——单方面变更也可以是善意的、可问责的,不能选择性只引负面案例。
§7 跨域呼应:path dependence × 技术锁定
调度一个 Rick 已有的跨域资源:路径依赖(path dependence)与技术锁定理论(Paul David 1985 Clio and the Economics of QWERTY;W. Brian Arthur 1989 收益递增与锁定),链入 0133新制度经济学。
它如何改变本节的技术判断:表面看,“产品方被模型供应商锁定”是一个 vendor-lockin 的工程问题;用路径依赖框架重看,它是一个收益递增的正反馈陷阱——你每为某个模型的具体行为打一个 prompt 补丁(前述”60% 是补丁”),就增加了一份针对该模型的沉没资本,下一次迁移成本就更高,于是更不愿迁移,于是更深地锁定。这与 Arthur 模型中”每次采用都降低不确定性、向已锁定路径聚集”结构同构。
这个跨域呼应直接改写了 §4 的对冲优先级:不是等到要迁移时才考虑切换成本,而是从第一天就用抽象层和版本钉选去”压低正反馈斜率”——让每个新补丁尽量写在与模型无关的抽象层,而非直接绑死某个模型的怪癖。更尖锐的是 arXiv:2506.06166(The Lock-in Hypothesis: Stagnation by Algorithm, ICML 2025)揭示的二阶锁定:LLM 从人类数据学信念 → 影响用户信念 → 再从被影响的数据学习,形成自我强化闭环,导致”新 GPT 迭代后多样性突然且持续下降”。这意味着模型供应商的锁定不只锁住产品方,还在锁住整个信息生态的多样性——这是一个比平台抽成黑得多的盒子,也是平台经济从未达到的锁定深度。
§8 PM 决策启示
面试怎么用:被问”你怎么看 AI 产品的供应商风险”,不要答”我们会做多供应商”。答:“我把模型供应商关系当 PDE 关系,拆成规则风险/包络风险/逐出风险三类分别对冲——规则风险用内嵌评测当 changelog 替代品,包络风险靠不做 thin wrapper、建自有数据飞轮,逐出风险靠版本钉选+迁移预案。我在滴滴做双边市场治理时对’被单方面变更’有一手经验,唯一迁不过来的是申诉/监管通道——AI 治理还落后平台经济约十年。“30 秒,带框架、带一手、带边界。
选型怎么用:选型会上把”是否提供固定快照 ID + 弃用预告期 + 是否承诺权重保存”列为硬指标,与价格、能力并列。Anthropic 的权重保存承诺、OpenAI 的 6 个月 GA 弃用窗口,是可量化的供应链稳定性指标,不是软性加分项。
复现/上线怎么用:上线前做三件事——(1) pin 快照 ID 并写进配置;(2) 建 200–500 条生产查询的回归评测集,接入 CI,每周自动跑;(3) 给关键能力留时间性冗余(成本/SLA 承诺打折,预留供应商变更缓冲)。把”无 changelog”当默认假设来设计系统。
§9 与已有节点的关系
- 对照 m209 - 推理成本控制手册:补缺 + 纠偏。m209 给的价格表与成本公式是静态时点快照;本节点补其缺失的”时间性”维度——成本与能力的地基会被供应商单方面改写,成本控制需留时间性冗余。不复述 m209 的计费公式与缓存/路由手段。
- 对照本专题 0432 其它节点:本节是 04 实例剖解 模块下唯一一篇用”非 AI 行业一手经验”做结构对比的剖解,为 03 架构剖面(机制层)和 02 代际演化提供”平台经济学先例”这一外部参照系。与本专题成本节点(0413 线)、评测/回归节点(0412 线)、机制节点(0421 线)、失败节点(0416 线)形成显式互链:评测是本节”changelog 替代品”的技术实现,机制是行为漂移的内因,失败是漂移的后果集。
- 升级关系类型:对话(与平台经济学跨域对话)+ 深化(把抽象的”vendor lockin”深化为”PDE 三类风险 + 路径依赖正反馈”的可操作框架)。
§10 关联节点
核心(必读)
- m209 - 推理成本控制手册 —— 成本时点快照,本节补其时间性维度
- 0133新制度经济学 —— 路径依赖/技术锁定的理论母体
- OpenAI —— 静默更新与弃用政策的主要案例源
- Claude / Anthropic —— 权重保存承诺、四阶段弃用生命周期
- Agent —— Agent 链路放大单点模型行为漂移的风险
延伸(可选)
- 幻觉 —— 不可复现性的近邻问题
- Scaling Laws —— 供应商持续更新的底层驱动力
- ChatGPT —— 谄媚事件的产品载体;thin wrapper 被 Sherlock 的对象
- 0117社会学 —— 平台权力/工人能动性的社会学视角
- AI PM 知识图谱·总索引 —— 全局入口
修订日志
- R1(2026-06-07):首稿。建立”单方面变更下的依赖方”判断主轴;用 PDE 三类风险框架打通平台政策与模型更新的同构性;判断主轴”四个更 + 一个反而不”四件套;接入 Liebowitz/Margolis、平台包络正和论两个对手框架;path dependence 跨域呼应;与 m209 显式升级对照。〔待核实〕项见正文标注。