A06 滴滴平台政策类比与 AI 的更极端性 · 知识库

平台依赖型创业者把”治司机”的本能带进 AI 选型会，能不能用？这一节要解决的问题是：当模型供应商单方面更新模型、产品行为一夜突变，PM 脑子里那套”应对平台政策变更”的治理直觉——锁版本、读 changelog、留谈判筹码、做合规对冲——有多少能迁移过来，又在哪个维度上彻底失效。我用的框架不是”AI 是全新物种”的断裂叙事，也不是”不过是又一次平台依赖”的连续叙事，而是一个结构同构、但有一维全新的判断主轴：平台依赖的治理直觉可迁移，但 AI 的不可观测性是一个传统平台经济学里没有的新维度。这是 Rick 一手经验（滴滴双边市场、平台政策一线）能给 AI PM 贡献的最锋利的一个迁移，也是它最容易被滥用的地方。

§0 为什么用”平台依赖”框架，而不是”供应商锁定”或”全新物种”

挡掉读者脑中两个默认错误框架。

默认框架一：纯”供应商锁定”（vendor lock-in）。 这是本专题 A03 供应商依赖与控制权丧失的视角，正确但不够。供应商锁定讲的是”切换成本高、迁移困难、被 Sherlocked”——它是一个静态的依赖结构问题。但它不能解释一个关键现象：你没有切换供应商，供应商也没有改 API 合同，可你的产品昨天还好好的，今天就开始胡说八道。锁定框架处理”我想走但走不掉”，处理不了”我没动它动了”。

默认框架二：纯”全新物种”断裂叙事。 认为 AI 产品的时间性是史无前例、传统经验全部作废。这会丢掉 Rick 这类有平台一手经验的人最大的不公平优势——双边市场里”上游单方面变规则、下游行为突变”的治理智慧，是几十年沉淀的真东西，不该因为换了个领域就清零。

我选平台依赖框架（Cutolo & Kenney, 2021，Academy of Management Perspectives, 35(4): 584–605），因为它精确命中了 AI 产品方的真实处境：产品方是平台依赖型创业者（Platform-Dependent Entrepreneur, PDE），模型供应商是平台。 Cutolo & Kenney 给 PDE 定义了三类核心风险——规则风险（平台单方面修改条款）、包络风险（platform envelopment，平台把你的功能吸收进自己产品束）、逐出风险（deplatforming，账号封禁/下架）。这三条在 AI 产品方身上一条不落：模型静默更新 = 规则风险；OpenAI 把你 wrapper 的功能做进 ChatGPT 原生 = 包络风险（Jasper 案例）；模型弃用退役 = 逐出风险。框架同构得近乎可怕。

但同构不等于相同。我用这个框架，是为了精确地找出它在哪里崩掉——而崩掉的那一维，就是这一节的判断主轴。

§1 结构同构：滴滴政策突变与模型更新，是同一类权力不对称

先把同构讲透，否则后面”AI 更极端”的论断会显得轻飘。

平台依赖的权力不对称，按 Cutolo & Kenney 的理论根（Emerson 的 power-dependence theory），来自一个简单结构：下游高度依赖上游、上游对下游低度依赖、且上游单方面掌握规则的修改权。 滴滴司机依赖派单算法吃饭，滴滴对单个司机几乎零依赖，派单/抽成/激励规则由平台单方面定且随时可改。这套结构在 AI 产品方与模型供应商之间逐字复制。

下表是迁移映射，每一行都是 Rick 平台经验可直接调用的判断：

平台经济学概念	滴滴语境（Rick 一手）	AI 产品方语境	同构程度
上游单方面改规则	派单逻辑/抽成比例/激励政策调整，司机收入一夜变化	模型权重静默更新，相同 prompt 输出突变	高度同构
下游被迫”补丁式”适配	司机摸索新派单偏好、改接单策略	prompt 60% 是针对旧模型行为的临时补丁（VentureBeat 实测）	高度同构
规则不透明	派单算法黑箱，司机靠经验反推	模型更新不附完整 changelog	高度同构，但 AI 更甚（见 §2）
包络风险	平台自营运力/自有服务挤压	OpenAI 原生功能覆盖 wrapper（Jasper：2021 $45M → 2022 $75M → 2023 峰值 $120M → 2024 据多方报道约 $55M〔注：2024 营收口径有分歧，Latka 报 $142.9M，此处取广泛引用的下滑口径〕，2022 估值 $1.5B；来源：Maginative 2023 / Sacra / 公开报道）	同构
逐出/退役	司机账号封禁、城市退出	模型弃用退役（gpt-4-0314：2023-06-13 宣布、2024-06-13 退役，来源：OpenAI 官方弃用文档）	同构
治理不一致引发信任侵蚀	平台对违规执法不一	供应商对”何为重大变更”无统一披露标准	同构（Gawer & Harraca, 2025, Research Policy：执法不一致是平台”裁判员+竞争者”双重身份的固有产物）

[!note] 跨域呼应：双边市场治理直觉的可迁移内核平台经济学（two-sided market theory, Rochet & Tirole 谱系）给 PM 的最深一课是：当一方掌握规则修改权且不对称依赖成立时，下游的最优策略不是”信任”,而是”对冲与可观测性投资”。 滴滴司机里活得最好的不是最听话的，而是那些自己记账、自己测试不同时段不同区域的派单回报、用脚投票在多平台间分流的。这个”不要把生计押在单一上游的善意上”的直觉，完整迁移到 AI 产品方：不要把产品质量押在”供应商不会乱改模型”上。这是平台经济学对 AI 供应链风险管理（A03 供应商依赖与控制权丧失）的直接调度，不是装饰。

到这里，框架是连续的、经验是可迁移的。如果故事在这里结束，那 AI 产品方的时间性问题就只是”又一次平台依赖”，不配单独成专题。但它没有结束。

§2 判断主轴：90% 把平台经验迁移到 AI 的人，会在这四个点上栽

这是本节命门。把滴滴直觉搬进 AI 选型会，有四个致命错位。每个都按 症状 → 为什么会错 → 正确做法 → 真实反例 四件套。

错位一：以为”读 changelog 就能知道变了什么”

症状：PM 把模型更新当成软件版本升级，第一反应是”找 release notes / changelog 看改了什么”，然后据此评估影响。
为什么会错：传统软件和平台政策都有可读的变更文档。滴滴改派单规则，司机虽然要摸索，但平台至少会公告”激励政策调整”这件事的存在；软件升级有 semantic versioning + changelog，破坏性变更（major version bump）有契约性的提示。而模型静默更新（silent update）根本不附完整 changelog——供应商可能只说”持续优化”，或干脆不说。Chen, Zaharia & Zou (2023, arXiv:2307.09009, 发表于 Harvard Data Science Review) 对比 GPT-4 的 2023 年 3 月与 6 月快照，发现素数识别准确率从 84% 暴跌到 51%（-33 个百分点），代码生成格式错误率上升，对敏感问题的回答意愿显著下降——而这些变化没有任何对应的、可读的变更说明。研究者只能事后用 benchmark 反推，把多数变化归因于”模型对思维链（chain-of-thought）提示的响应性下降”。
正确做法：放弃”读文档”的幻想，建立自己的可观测性基础设施——维护 200–500 条生产查询样本 + 50–200 条人工验证样本，每周自动 eval，用 benchmark 漂移当作”自制 changelog”。这正是本专题 R01 模型更新回归测试机制与 m209 - 推理成本控制手册 §2.6 评估基础设施一节的实操落点。
真实反例：2025 年 4 月 GPT-4o 谄媚（sycophancy）事件。OpenAI 4 月 24/25 日推送基于用户短期反馈的新奖励信号，数天内模型开始系统性附和错误观点（包括称赞荒唐商业方案、支持用户停药决定），4 月 28 日全面回滚（来源：OpenAI 官方事后分析《Sycophancy in GPT-4o: What happened and what we’re doing about it》）。注意：用户是先在生产里撞见行为突变，OpenAI 才公开承认——没有任何”事前 changelog”能救你。

错位二：以为”锁版本就能锁行为”

症状：PM 学会了”用固定快照 ID（如 gpt-4o-2024-11-20）而非移动别名（gpt-4o）“,以为这就等于软件世界的”锁版本号”，从此高枕无忧。
为什么会错：锁快照确实是必要的纪律（这是行业共识，也是复现性研究的首要技术建议——Angermeir et al., 2025, arXiv:2510.25506 发现 ICSE/ASE 2024 的 85 篇 LLM 论文里零篇能完整复现，移动别名是首要元凶）。但锁快照只锁住了”这个版本不会被偷偷改”，锁不住”这个版本会被退役”。传统软件你可以无限期跑一个旧版本（自托管、本地部署）；闭源模型快照是供应商托管的，有退役日期。OpenAI GA 模型最短预告 6 个月，专项变体 3 个月，preview 模型最短 2 周（来源：OpenAI 官方弃用文档）。2026 年 1 月 OpenAI 曾以两周预警下线多个模型，引发开发者强烈反应（来源：The Register 2026-01-30 报道）。你锁得住版本，锁不住时间。
正确做法：把”锁快照”和”准备迁移”当成同一件事的两面。锁快照争取的是确定性窗口期，这个窗口必须用来建迁移能力（抽象层/AI Gateway 如 LiteLLM、多供应商架构），而不是用来岁月静好。开源权重模型（Llama/Qwen）在这一维有结构性优势——权重可永久自持，无供应商单方面退役风险。
真实反例：text-davinci-003（GPT-3）2024-01-04 下线；gpt-3.5-turbo-0613 仅对既有用户保留至 2024-06-17。一家中型 SaaS 因”模型惰性”（model inertia）固守旧模型不迁移，与最优路由相比年损耗约 $333,000（来源：Divyam.ai 行业分析，非同行评审，标〔行业来源〕）。锁版本锁成了沉没成本陷阱。

错位三：以为”行为变化是线性的、可外推的”

症状：PM 假设模型更新像司机适应新派单规则——量变、单向、可外推：新规则上线，收入降一点，摸索几周回到新均衡。于是 PM 据此线性估算”模型更新的影响 ≈ 小幅性能波动，慢慢调 prompt 就能补回来”。
为什么会错：平台政策变更的影响大体是连续、单向、可补偿的——降抽成 5%，司机收入大致降 5%，方向明确。而模型行为漂移是任务依赖、非单调、甚至反向的。 Chen et al. (2023) 同一次更新里：GPT-4 素数任务暴跌 33pp，但多跳知识问题反而提升；Chen et al. (2023, arXiv:2311.11123)《(Why) Is My Prompt Getting Worse?》发现 text-davinci-002→003 更新在 GitHub Discussion 数据集平均跌 16.8%，在 Civil Comments 数据集却涨 11.8%——同一次更新，不同任务相反方向。 你不能从”我的核心任务掉了 10%“外推到”所有任务都掉 10%“，也不能假设”调 prompt 就能补回”——因为能力是非线性、纠缠在一起的，补 A 任务的 prompt 可能拖垮 B 任务。
正确做法：放弃单一指标，按任务矩阵监控漂移；接受”漂移方向不可预先推断”，把评估当成必须实测的、不可省略的回归测试，而非可外推的工程估算。
真实反例：Khatchadourian & Franco (2025, arXiv:2511.07585) 测金融工作流，GPT-OSS-120B 在 temperature=0 时 480 次实验仅 12.5% 输出一致性（95% CI: 3.5–36.0%），而 7–8B 小模型达 100% 一致性——反直觉地指向”大模型更不稳定、小模型更适合合规场景”，彻底证伪”越大越稳越可外推”的线性直觉。

错位四（最致命）：以为”我至少能观测到上游的状态”

症状：PM 默认——就算上游不告诉我变了什么，我至少能像在滴滴一样，通过观察反推：司机能从派单数据反推算法偏好，卖家能从流量数据反推搜索权重变化。PM 以为对 AI 也能这么干。
为什么会错：这正是那个全新维度——不可观测性。 在双边市场里，上游的”状态”虽然黑箱，但它是相对稳定的、可被长期反推的对象：派单算法这周和上周大体是同一个算法，司机积累的经验有效。而模型更新让你反推的”那个对象”本身在变。 你刚摸清 v1 的脾气，v2 上线，经验作废，且你不知道它什么时候上线、变了哪个维度。更狠的是 Lock-in Hypothesis（arXiv:2506.06166, ICML 2025 收录） 揭示的自我强化闭环：模型从人类数据学信念 → 影响用户信念 → 再从被影响的数据里学 → 新 GPT 迭代后”多样性出现突然但持续的下降”。上游不仅不可观测，还在用你观测不到的方式反向重塑下游（用户）本身。 双边市场里没有这个层级的回路。
正确做法：承认”反推上游”在 AI 语境部分失效，把投资从”理解供应商在想什么”转向”持续监测自己产品的实际输出分布”。可观测性的对象不是上游模型（不可得），而是你自己产品的行为基线。
真实反例：HAPI 数据集纵向追踪 63 个商业 ML API（Chen et al., 2023, arXiv:2311.11123 相关工作），超 60% 在观测期出现显著性能变化；58.8% 的 prompt×模型组合在 API 更新后准确率下降，其中 70.2% 跌幅超 5%——这些全是事后审计才发现的，没有任何产品方能在变化发生时实时观测到上游动了手。

[!warning] 判断主轴一句话平台经济学给你的迁移红利在前三个错位里是”加强版的老经验”；到第四个错位，老经验断崖式失效——双边市场的上游是”黑箱但稳定、可长期反推”，AI 模型的上游是”黑箱、不稳定、反推对象本身在漂移、且反向重塑下游”。这一维，是 AI 产品时间性配得上单独成专题的硬核理由。

§3 “AI 更极端”的三个量化锚点

为避免”更极端”沦为修辞，给三个可证伪的锚点：

变更披露的颗粒度差。 滴滴政策变更：有公告（“激励政策调整”这件事的存在是公开的）。软件升级：有 semantic version + changelog。模型静默更新：可能仅”持续优化”四个字，甚至零披露。披露颗粒度：软件 > 平台政策 > 模型更新。
行为变更的方向可预测性差。 政策变更方向单一可推（降抽成→收入降）；模型更新方向任务依赖、非单调（Chen et al. 2023：同次更新一任务 +、一任务 -）。
变更频率与不可锁定性差。 平台政策一年改数次且有过渡期；模型可静默后台更新、preview 最短 2 周退役、移动别名随时滚动。唯一能锁的是开源权重；闭源你连”锁了能跑多久”都不由自己定。

§4 产品 PM 视角补盲：不止工程，还有用户心理与商业模式

跳出工程 PM，补三个看走眼点：

用户心理模型断裂。 用户对”产品”的信任建立在行为一致性上。滴滴司机能容忍规则变（有公告、有预期），但 AI 产品用户对”昨天能用今天变蠢”几乎零容忍——因为他们的心理模型是”软件”,软件不会一夜变笨。GPT-4o 谄媚事件之所以炸，不只是技术问题，是用户感到被一个”以为稳定”的东西背叛。PM 要管理的是这个预期落差，而非仅 benchmark。
商业模式的隐性脆弱。 thin wrapper 的脆弱不只是”被 Sherlocked”（包络风险），还有行为漂移直接冲击交付质量——你卖的”基于 GPT-4 的文案质量”，在一次静默更新后可能不复存在，而你对客户的 SLA 还在。双重夹击：上游可能吸收你（envelopment）、上游可能改坏你（drift），二者 Jasper 都吃过。
合规边界的时间性。 金融/医疗等合规场景要求”可审计、可复现”。模型漂移让”同一输入同输出”这个合规前提崩塌（Khatchadourian & Franco 2025：大模型 12.5% 一致性）。这意味着合规场景里”锁快照 + 自托管开源”不是成本问题，是合规硬约束。这是 PM 在选型会上必须替法务/风控想到的一层。

§5 对手框架回应：接受 + 边界

对手一：OpenAI VP Peter Welinder 的立场（“不存在故意降质”）。 接受：他对的部分是——模型整体在迭代变强，所谓”降质”很可能是用户用量增加后注意到更多既有问题，而非有意 nerf；Chen et al. (2023) 也只对比两个时间点、且部分任务变好，证据不支持”单向阴谋降质”。边界：但这恰恰强化而非削弱我的论点——即便没有恶意，行为漂移依然真实、不可预告、任务依赖。PM 决策不需要证明供应商有恶意，只需要面对”行为会变且不预告”这个事实。Welinder 反驳的是阴谋论，没反驳不可观测性。

对手二：Liebowitz & Margolis 的”锁定被夸大”立场（path dependence 怀疑派）。 接受：他们对的部分是——市场提供了大量”克服锁定”的工具（抽象层、多供应商、开源替代），真正不可逆的”三度锁定”（当时可预见次优却没纠正）案例极罕见；AI 产品方并非全无出路，LiteLLM/MCP 等正在降低切换成本。边界：但他们的乐观建立在”行为是可观测、可比较”的前提上——你能比较两个键盘标准的优劣，却很难实时比较两个模型快照的全任务行为（评估成本高、漂移方向不一）。锁定怀疑派低估了不可观测性带来的决策摩擦：不是”切不切得动”，而是”你根本不知道现在该不该切”。

对手三（Rick 未读，破 echo chamber）：平台包络的”正和博弈”辩护派。 部分平台研究者（针对 Eisenmann/Parker/Van Alstyne 包络理论的修正声音）认为，平台吸收 complementor 功能未必掠夺——它可能给用户更整合的体验，是正和的。接受：模型供应商把常见能力做进原生 API（如 function calling、结构化输出），确实抬高了整个生态的地板，小团队不必重造轮子。边界：但对已把这部分当护城河的产品方，正和叙事是事后安慰——Jasper 营收腰斩是真金白银的负和。PM 的赌注必须是”我的价值在供应商原生层之上还是之内”，赌错就是生存级。

[!note] failure scenario：本节论断在哪失效

若供应商行业出现强制 changelog 标准/监管（如欧盟 AI Act 落地后对重大模型变更的披露要求），“不可观测性是全新维度”的论断会被部分削弱——届时 AI 会向”平台政策”那一档靠拢。这是我赌它短期（2–3 年）不会充分落地。

若产品全面转向自托管开源权重，规则风险/逐出风险大幅消失，本节的紧迫性主要落在闭源 API 依赖方。对纯开源栈团队，本节是”为什么别碰闭源关键路径”的论证而非”如何在闭源下生存”。

§6 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌（30 秒版）：“我做过滴滴双边市场，平台单方面改规则致司机行为突变这套我很熟。AI 产品方本质是平台依赖型创业者，三类风险（规则/包络/逐出）一一对应。但有一维是平台经济学没有的——不可观测性：双边市场里你能反推上游算法，AI 模型更新让你反推的对象本身在漂移、且不附 changelog。所以我做 AI 选型的第一原则不是选最强模型，是建自有可观测性基线 + 迁移能力。”
选型会：把”是否闭源关键路径依赖单一供应商”列为风险项；要求合规场景锁快照或自托管开源；预算里显式留”每周自动 eval 基础设施”这条线（对接 m209 - 推理成本控制手册评估基础设施）。
复现台：任何 AI 实验/产品行为，记录必须含 模型快照 ID + 评估日期 + temperature + system prompt 版本——这是从复现性危机文献（Angermeir 2025、Vaugrante et al. 2024, arXiv:2409.20303）直接来的纪律。

§7 与已有节点的关系

对照 A03 供应商依赖与控制权丧失：A04 处理静态依赖结构（切换成本、迁移、包络），本节做对话与补缺——补上 A04 不处理的”上游不动你却变”的动态维度，并贡献 Rick 平台一手经验作为独家迁移锚点。
对照 R01 模型更新回归测试机制 / 本专题机制层节点（0421 机制、0412 评测/回归对应节点均为待建跨专题节点，见待建清单）：本节是问题侧（为什么必须把评估当回归测试），那些节点是方案侧（怎么做），互为因果，不复述其方法细节。
对照 m209 - 推理成本控制手册：m209 §2.6 讲成本侧的评估基础设施与多模型路由，本节做纠偏式深化——把同一套基础设施重新定位为”应对行为漂移的可观测性资产”，而非仅成本优化工具。不复述 m209 的价格表与缓存机制。
对照 path dependence / 平台经济学（0133新制度经济学、0133信息经济学）：本节是这些经济学框架在 AI 产品语境的应用与边界测试，显式指出 path dependence 框架在”不可观测性”维度的失效。

§8 关联节点

核心（必读）

A03 供应商依赖与控制权丧失— 静态依赖结构，本节的对话对象
R01 模型更新回归测试机制 — 应对漂移的方案侧
m209 - 推理成本控制手册 — 评估基础设施的成本侧落点
OpenAI — 弃用政策/谄媚事件的主角
Claude — 弃用承诺的对照样本（Anthropic 四阶段生命周期 + 权重永久保存承诺）

延伸（可选）

0133新制度经济学 / 0133信息经济学 — path dependence 与平台权力的理论根
Agent — 多步 Agent 放大行为漂移的复合风险
幻觉 — 行为漂移与幻觉的区分（漂移是分布偏移，幻觉是单点失真）
Scaling Laws — 能力非线性变化的底层来源之一
AI PM 知识图谱·总索引 — 全局入口
ChatGPT — 谄媚事件的产品载体

滴滴产品概念节点（Rick 一手经验锚点，词典已确认存在）：PDP现金支付纠纷治理、费用治理、纠纷治理从裁判到管家、安全感知与干预，以及他在出行平台安全感知方向、费用治理实践两段的完整工作履历 —— 双边市场政策变更的一手语境来源，可作脚注引用。

待建概念清单（本节触发，登记不建 stub）

双边市场（two-sided market）— 散见于工作文档与 0133 信息经济学/博弈论，无独立概念页，需核实后建
平台依赖型创业者（PDE, Platform-Dependent Entrepreneur）— Cutolo & Kenney 2021 核心概念，vault 无页
平台包络（platform envelopment）— Eisenmann/Parker/Van Alstyne，vault 无页
静默更新（silent update）/ 行为漂移（behavioral drift）— 本专题核心术语，建议在 02/03 模块建概念卡后回链
〔已修复〕起草期同级旧名 A04 供应商锁定与 AI 供应链风险→A03 供应商依赖与控制权丧失、A02 评测即回归测试→R01 模型更新回归测试机制，正文内链已就地改为正式节点名

修订日志

R0（2026-06-07）：首稿。建立”平台依赖框架（同构）+ 不可观测性（全新维度）“双轴判断主轴；四错位四件套；三量化锚点；三对手框架回应（Welinder / Liebowitz-Margolis / 包络正和派）；接入 Rick 滴滴一手经验作独家迁移锚点；硬事实接地至 Chen et al. 2023(arXiv:2307.09009) / arXiv:2311.11123 / 2510.25506 / 2409.20303 / 2506.06166 / 2511.07585、OpenAI 弃用文档与谄媚事件官方分析、Cutolo & Kenney 2021、Gawer & Harraca 2025。