A05 模型路由与 Mixture-of-models

本节点要解决的问题不是”路由能不能省钱”——它当然能，营销页都告诉你能省 60% 以上。真正的问题是：当你把一个请求交给一个分类器去决定”用便宜模型还是贵模型”时，你到底用什么换来了那笔省下的钱？ 本节的视角是把模型路由从”降本手段”重诊为”一笔有隐藏负债的金融衍生品”——它用三种你看不见的成本（质量回退、延迟、系统复杂度），对冲了一笔你看得见的 token 节省。框架名：路由的隐藏成本三角（质量-延迟-复杂度），对照锚点是 RouteLLM 与 FrugalGPT 两个学术原型，以及 OpenRouter / Portkey / LiteLLM 等商业路由层。

模型路由（Model Routing）、级联（Cascade）、Mixture-of-models（MoM）这三个词在 JD 和白皮书里经常混用，但它们不是同一件事。本节先做一次框架级辨析挡掉混淆，再用三角去拆每一种省钱姿势背后的代价，最后给出 PM 在选型会和定价会上该问的那几个问题。

§0 为什么是”路由”框架而不是”MoE 框架”——先挡掉一个最常见的混淆

转型 PM 第一个会踩的坑，是把**模型路由（routing）**和 **Mixture-of-Experts（MoE）**当成同一件事，因为两者都带”用一部分而不是全部”的直觉。它们的抽象层完全不同，混淆会让你在选型会上说错话。

维度	MoE（混合专家）	模型路由 / Mixture-of-models
发生层级	模型内部——一个模型里的 FFN 被拆成多个 expert，gating 网络在 token 级别选激活哪几个	模型外部——在多个独立模型（甚至多家厂商）之上加一层 dispatcher，请求级别选用哪个模型
决策粒度	每个 token、每一层	每个请求（或每轮对话）
谁做的决策	训练出来的 gating 权重	一个外挂的分类器 / 打分器 / 规则
省的是什么	激活参数少 → 算力（FLOPs）成本，但显存仍需常驻全部参数（见 c06 - 架构演进：Dense MoE SSM Hybrid、MoE）	把简单请求分流到便宜模型 → API 调用单价 / per-query 成本
失效边界	显存固定成本高（A04 的”固定成本换边际成本”）	路由分类器本身的准确率与开销（本节主轴）

记忆口诀：MoE 是”一个模型内部省算力”，路由是”多个模型之间省单价”。 本节点只讲后者——外挂在模型之上的那层 dispatcher。这一层之所以值得单独成节，是因为它是 PM 能直接拍板的产品/工程决策（不需要训模型），且它的隐藏成本最容易被”省了 X%“的单一数字盖住。

路由内部还要再分两种范式，这是第二个易混点：

路由（Routing）= 先判断后单选：一个分类器在请求进来时就预测”这个请求该用哪个模型”，然后只调用那一个。代表：RouteLLM。
级联（Cascade）= 先便宜后升级：先用便宜模型答，再用一个打分器判断答案够不够好；不够好才升级调用贵模型。代表：FrugalGPT 的 LLM cascade。

两者的成本结构截然不同：路由是”一次调用，赌分类对不对”;级联是”可能两次调用（便宜的白调了），赌打分器判得准不准”。把它们当一回事，会让你在估成本时少算一笔级联的”白调”开销。

§1 路由怎么省钱：三条便宜姿势

把”用一个分类器决定模型”展开，省钱的来源其实是三条独立的杠杆，可以叠加：

杠杆	机制	学术/产品锚点	真实降本声明（需核）
① 便宜模型兜底（Routing）	多数请求其实是简单的（“今天星期几""改个错别字”），分类器把它们分流到小模型/便宜模型，只有判定为”难”的才上强模型	RouteLLM（LMSYS / UC Berkeley Sky Lab，arXiv 2406.18665，2024-07）：用 Chatbot Arena 偏好数据训路由器	RouteLLM 论文实测：相对全程用 GPT-4，MT-Bench 上降本 >85%、MMLU 上 >45%、GSM8K 上 >35%，同时保住 GPT-4 约 95% 的质量（来源：arXiv 2406.18665 / LMSYS 2024-07-01 博客）。⚠️ 注意降本幅度强烈依赖 benchmark——MT-Bench 高、推理密集的 GSM8K 低
② 级联升级（Cascade）	先用便宜模型答 + 自评打分，分数过线就返回，过不了线才升级到贵模型	FrugalGPT（斯坦福 Chen/Zaharia/Zou，arXiv 2305.05176，2023-05）：LLM cascade + completion 打分	FrugalGPT 论文：可在匹配 GPT-4 质量的同时降本最高约 98%，或在同等成本下把准确率提升约 4%（来源：arXiv 2305.05176〔已核实 2026-06-12：论文真实存在，标题/作者 Chen·Zaharia·Zou/2023-05 与降本约 98%、+4% 准确率口径均吻合〕）。⚠️ 此为 2023 年特定下游数据集（HEADLINES/OVERRULING/COQA 等容错高任务）口径，模型与价格已大变，换场景须重测〔该结论当前是否仍成立属前瞻性存疑、非引用问题，保留〕
③ 语义缓存（Semantic Cache）	把”语义相同”的历史请求结果缓存（用 Embedding 算相似度命中），命中就直接返回不调用模型	GPTCache 等开源方案；与 Prompt Caching 不同——后者缓存的是 prompt 前缀的 KV，前者缓存的是整个问答对	命中率决定一切，高频 FAQ 场景命中率可观，长尾对话场景命中率趋零〔示意，无通用值·待核实〕

[!note] 语义缓存 ≠ Prompt Caching，别混 Prompt Caching（A03 详解）缓存的是同一前缀的 KV Cache，按 token 折扣计价（如 Anthropic 约 10% 读取定价、5 分钟 TTL，详见 A03），它仍要走一次推理；语义缓存缓存的是整个回答，命中后 token 成本归零但有召回错误风险（语义”相近”不等于”答案能复用”——问”北京天气”和”上海天气”embedding 很近，复用就是灾难）。这两条在降本矩阵 S02 降本手段流派对照矩阵里是不同流派，PM 别在评审会上把它们说成一回事。

三条杠杆的共性是：它们都引入了一个”判断器”（分类器/打分器/相似度阈值），而判断器会犯错。省下的钱是确定的，判断器的错误成本是隐藏的、概率性的、且常常被排除在”省了 X%“的口径之外。这就是下一节的主轴。

§2 判断主轴：路由省钱的三笔隐藏成本

⭐ 这是本节的命门。“路由省 60%“这种话术之所以危险，是因为它只报了分子（省下的 token 钱），把分母里三笔成本藏了起来。逐一拆解，每笔都按 症状 → 为什么会错 → 正确做法 → 真实反例 四件套。

隐藏成本一：质量回退（被分错的那 5%–20% 请求，代价不是线性的）

症状：上线路由后总 token 账单确实降了 40%，但客诉率、人工复核量、退款率悄悄上升；某些”看起来简单实则要强模型”的请求被分给了小模型，答错了。Dashboard 上成本曲线漂亮，NPS 曲线难看。
为什么会错：路由的省钱前提是”分类器分得准”，而分类器的错误分布不是均匀的。它最容易在”边界请求”上出错——而边界请求往往恰恰是高价值、低容错的那些（法律咨询里夹一句简单问候、医疗问诊里混一个常识问题）。更致命的是，一次质量回退的业务代价远大于一次调用省下的几分钱：省 0.01 美元 token，赔上一个用户的信任，这笔账在 per-token 视角里永远算不出来。把”质量”简化成一个 benchmark 平均分（RouteLLM 报的”保留 95% 质量”）会掩盖尾部——那 5% 的退化可能全砸在你最贵的客户身上。
正确做法：(1) 路由质量不能只看 benchmark 平均分，要看分错请求的业务分布——给高价值/高风险意图（支付、医疗、法律、投诉）设禁止降级白名单，无论分类器怎么判都走强模型；(2) 把质量回退的业务成本（客诉成本、人工兜底成本、品牌损失）显式计入降本核算，而不是只算 token 差价；(3) 级联比纯路由更安全，因为级联有”打分器过线才返回”的二次闸门，但要算上级联的”白调”开销（见下节）。
真实反例：FrugalGPT 报告的”降本约 98%“（来源：arXiv 2305.05176）是 2023 年在特定问答数据集（HEADLINES/OVERRULING/COQA 等）上的结果——这些是容错高、答案可机判的任务。把这个数字搬到”客户投诉分流""医疗预问诊”这类容错低、错误代价高的场景，降本幅度和质量保证会双双崩塌。同理 RouteLLM 的”降本 95% 保质量”在 MT-Bench（>85%）和 GSM8K（仅 >35%）上差出一倍多——推理密集的难任务，路由可分流的空间天然就小。Baumol 成本病在这里登场（见 §对手框架）：质量敏感区是路由砍不动的成本刚性区。

隐藏成本二：延迟（级联的双跳，与分类器的串行开销）

症状：用了级联后 P50 延迟还行，但 P95/P99 延迟翻倍——因为那些”便宜模型答了但没过线、要升级”的请求走了两趟推理，用户等了双倍时间还可能多付了钱。
为什么会错：成本核算只算 token，不算延迟的产品成本。但延迟是有商业代价的——首 token 时间（TTFT）每多几百毫秒，对话产品的用户流失就上升。级联的本质是”用延迟（双跳）和算力（白调便宜模型）换取期望成本下降”，这是一个期望值优化，它在尾部（升级率高的请求）反而又慢又没省多少。纯路由的分类器虽然不双跳，但分类本身也要时间——如果分类器是另一个 LLM 调用，你为了省一次贵调用，先付了一次分类调用的延迟和成本。
正确做法：(1) 分类器要轻——用小 embedding 模型 + 逻辑回归 / 一个微调过的小分类模型，而不是再调一次大模型当裁判（“用 GPT-4 判断该不该用 GPT-4”是自相矛盾的反模式）；(2) 级联深度控制在 2 层，超过 2 层的级联，期望延迟和白调成本会吃掉降本收益;(3) 对延迟敏感的实时场景（语音、流式对话）慎用级联，改用纯路由或干脆不路由;(4) 监控指标要带 per-tier 升级率——升级率持续走高说明便宜模型那层在”白干”，路由的经济性已经倒挂。
真实反例：m209 实测的”路由后平均成本约 37%“（即降本约 63%）是一个平均值〔为 m209 特定配比下的实测，见 m209 - 推理成本控制手册，换场景需重算〕。平均值掩盖了升级率高的那部分请求——它们既付了便宜模型的钱、又付了贵模型的钱、还多等了一趟，单看这部分请求路由是负收益。把平均值当全景，就会在升级率高的产品上误判。

隐藏成本三：系统复杂度（你养了一个需要持续运维的”模型选择器”)

症状：路由上线半年后，团队多了一堆没人愿意接手的活：分类器随新模型上线要重训、阈值要随价格变动重调、多供应商的 fallback 链要测、某家 API 挂了路由要会切换……一个本来为”省钱”引入的组件，自己变成了一个持续烧人力的子系统。
为什么会错：把路由当成”一次性配置”而非”持续运维的活系统”。但模型路由处在一个高速漂移的环境里：模型每隔几个月迭代（昨天的”强模型”今天变中端）、价格每隔几个月下调（A05 兜底用的”便宜模型”可能不再是最便宜的）、新模型加入要重新校准分类边界。分类器是用历史数据训练的，而它要预测的世界在持续变化——这是一种结构性的幻觉外风险：路由决策基于的”哪个模型适合哪类请求”这张映射表，本身在过期。更隐蔽的是fallback 可靠性：商业路由层（OpenRouter / Portkey / LiteLLM）的卖点之一是”一家挂了自动切另一家”，但这引入了跨供应商的行为不一致（同一 prompt 在不同模型上输出格式/风格不同，下游解析可能崩）和路由层自身的可用性（你多了一个单点）。
正确做法：(1) 把路由的 TCO（总拥有成本，见 m202 - 工程选型决策矩阵）算全：分类器训练/重训人力 + 阈值运维 + 多供应商测试 + 路由层自身的可用性风险 + 监控告警，而不是只算 token 差价——很多中小团队算全 TCO 后会发现”不如直接用一个性价比够好的中端模型”；(2) 从规则路由起步（按意图/长度/用户分层的硬规则），跑通了再上学习型路由（分类器）——别一上来就上最复杂的；(3) fallback 链要做输出契约校验（schema 校验 + 降级模板），不能假设两家模型行为一致；(4) 把”路由配置”纳入 S03 FinOps for AI·成本可观测与归因全景的成本回归监控——价格变动后自动重评估路由策略是否还最优。
真实反例：OpenRouter/Portkey 这类厂商的营销话术是”接一个 API，自动路由到最便宜/最优模型，省 X%“〔具体数字随厂商，待核实〕。它真实省的是”多供应商接入的工程时间”和”低复杂度请求的单价”，但它把”分类器维护、跨模型行为一致性、路由层可用性”这三笔运维成本转移给了你——而这三笔不在它的”省 X%“口径里。这是典型的成本转移而非成本消失（呼应 G01 推理成本代际谱系总图的”退化性降本”判据：很多降本只是把成本挪到了别处）。

[!note] 三笔隐藏成本的统一诊断质量回退、延迟、复杂度——这三笔的共性是：它们都不在 token 计价里，所以都不在”省了 X%“的口径里。路由的真实经济性 = token 节省 −（质量回退的业务成本 + 延迟的产品成本 + 复杂度的运维成本）。当且仅当这个差为正，路由才真的省钱。多数”路由省 60%“的声明只算了第一项。

§3 产品 PM 视角补盲：路由不只是工程问题

跳出”工程降本”视角，路由有三个 PM 容易看走眼的非技术面：

用户心理模型——质量一致性预期：用户对一个产品的”聪明程度”有稳定预期。路由让同一个用户、同一类问题，今天被强模型答得很好、明天被分流到弱模型答得很差——这种”忽好忽坏”比”一直一般”更伤信任，因为它破坏了可预期性。免费/付费分层路由（免费用户走便宜模型）是合理的商业设计，但同一档位内的随机质量波动是产品事故。
商业模式——路由是定价分层的实现手段：免费额度用便宜模型兜底、付费档解锁强模型，本质是把”模型路由”做成了”价格歧视”的技术底座（呼应 A07 成本约束反向塑造产品：你以为的产品分层，是成本路由的产物）。PM 要想清楚：路由省下的钱是落进毛利，还是用来补贴免费额度获客（CAC）？这决定了路由是”提效”还是”换增长”。
合规边界——跨供应商路由的数据流向：fallback 到不同厂商意味着用户数据可能流向不同的数据处理方、不同的司法管辖区。对 Rick 所在的国际化/安全场景，“自动路由到最便宜模型”可能踩数据驻留（data residency）和供应商合规的红线——便宜的那家未必过得了合规。这是”成本最优”与”合规可用”的冲突，路由策略必须把合规约束作为硬白名单。

§4 对手框架回应：接受 + 边界

对手立场 A：路由乐观派（OpenRouter / Portkey 营销 + “路由能砍 60%+ 成本”）。 接受：对请求复杂度高度异质的产品（大量简单请求 + 少量难请求），路由对低复杂度请求降本显著，m209 实测平均成本约 37%（降本约 63%）确有其事〔m209 特定配比，见该节点〕，RouteLLM 在公开 benchmark 上也实测了”保住 GPT-4 约 95% 质量、MT-Bench 降本 >85%“的可行性（arXiv 2406.18665）。这是真降本，不是噱头。边界与赌注：(1) 这个降本幅度是平均值，掩盖了升级率高的尾部（§2 隐藏成本二）；(2) 它不含质量回退的业务成本与运维 TCO（§2 隐藏成本一、三）；(3) 用 Baumol 成本病（见下）指出存在路由砍不动的”刚性成本区”。我赌的是：对多数中小产品，算全 TCO 后路由的净收益远小于营销数字，很多场景”选一个够好的中端模型”比”上一套路由系统”更经济。

对手立场 B（Rick 未读对手框架 ①）：Baumol 成本病（William Baumol，“服务业生产率难提升导致成本相对上升”）。 这是从经济学借来逼问本节自己盲点的框架。Baumol 的洞察：有些活动（现场演奏一首四重奏）的生产率无法靠技术提升，所以随着其他行业变便宜，它们的相对成本反而上升。映射到路由：质量敏感、不容错的请求（医疗、法律、支付、高客单价 B2B）不能用便宜模型兜底——它们构成一个”成本刚性区”，无论便宜模型多便宜、路由分类器多准，这部分请求的成本都不随技术进步下降，因为”必须用最强模型”是业务硬约束。它改变了什么判断：路由的降本上限不是由分类器准确率决定的，而是由你的请求里”刚性区占比”决定的——刚性区占比越高，路由的天花板越低。一个 90% 请求都是高风险咨询的产品，路由几乎无空间。这逼我承认：本节”路由能省钱”的主张有一个被业务结构锁死的上界，不是技术能突破的。

对手立场 C（Rick 未读对手框架 ②）：路径依赖 / 收益递增（Paul David 的 QWERTY，1985；Brian Arthur 的收益递增）。 接受：早期为省成本选便宜模型 / 自建路由层，短期账面确实漂亮。边界：路径依赖框架反问——早期的省钱选择会形成锁定。你为便宜模型积累的 prompt 工程、few-shot 示例、评测集、下游解析逻辑，都是针对那个模型调优的；当它落后、你想换模型时，迁移成本（重调 prompt、重测、重训分类器）随时间累积上升。自建路由层同理：一套深度耦合自家业务的 router，几年后可能比当初用一个标准化中端模型贵得多。它改变了什么判断：最优路由策略要把锁定的隐性成本算进去——有时”现在多花一点用标准化方案”比”现在省一点但锁死在便宜模型/自建路由”在 3 年 TCO 上更优。这破除了”一步到位选最便宜”的单边乐观。

§5 跨域呼应：Baumol 成本病作为路由降本的”经济学下界”

[!note] 跨域调度（非装饰）本节点的核心跨域资源是 Baumol 成本病。它的作用是给”路由省钱”装一个经济学下界：技术乐观主义者会假设”只要分类器够准、便宜模型够强，路由就能无限逼近全程便宜模型的成本”。Baumol 说不——服务的质量刚性区不随生产率提升而降价。把这个框架接进来，PM 在评审会上就有了一句能挡住工程乐观的话：“我们请求里有多大比例落在不能降级的刚性区？路由的天花板由这个比例决定，不由分类器准确率决定。” 这把”路由能省多少”从一个工程参数问题（分类器 F1 多高）重构成一个业务结构问题（刚性区占比多大）——后者才是 PM 该拍的板。延伸阅读 0117社会学（度量与可见性）：路由分类器把”请求难度”编码成一个可计算的标签，但”难度”本身是被这个标签定义的——分类器看不见的难度维度（情感、合规、品牌敏感）就被系统性地不可见了。

§6 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌：被问”怎么给 AI 产品降成本”时，不要只答”上模型路由”。答：“路由对异质请求有效，但它用三笔隐藏成本换 token 节省——质量回退（尾部砸高价值客户）、延迟（级联双跳）、运维复杂度（漂移环境里的活系统）。我会先问产品的请求复杂度分布和刚性区占比，刚性区高的产品路由空间小。“——这一答立刻把你和”听过 RouteLLM 的人”区分开。
选型会：给工程的路由方案设三个必答问题：(1) 升级率/分类错误率监控有没有、分错的业务成本算没算？(2) 分类器自己是不是又调了一次大模型（自相矛盾的反模式）？(3) 算全 TCO（重训 + 阈值运维 + fallback 测试 + 路由层可用性）后净收益还有多少？三问问完，多数”省 60%“会缩水到一个诚实的数字。
复现台：去 R02 中型·模型路由 + 语义缓存降本实验亲手搭一个 router（便宜模型兜底 + 强模型升级 + 语义缓存），实测降本幅度 vs 质量回退的权衡曲线——只有亲手把”省的钱”和”分错的请求”放在一张表上，才知道路由对你的场景是不是真划算。

§7 与已有节点的关系（不复述事实基础）

本节点对 m202 - 工程选型决策矩阵 做深化：m202 §2.2.2 把”模型路由”作为”模式 D”列入选型矩阵的一个选项，但只到”有这个选项”的粒度；本节把它展开成完整的成本工程——拆出 routing/cascade 的成本结构差异、三笔隐藏成本、Baumol 下界。对 m209 - 推理成本控制手册 做补缺 + 抽象层升高：m209 §2.6 给了”路由平均成本约 37%“的实测降本数字（工程降本手段清单层），本节不复述这个数字的实现，而是把它重诊为”一个被平均值掩盖了尾部成本的金融对冲”，并补上 m209 未展开的 fallback 可靠性风险与跨供应商行为一致性问题。对 c06 - 架构演进：Dense MoE SSM Hybrid / MoE 做辨析（对话）：§0 显式区分”MoE 内部省算力”与”路由外部省单价”，挡掉最常见的概念混淆。与 A04 推理成本三角·模型大小延迟质量 是横向互补：A04 讲单模型内的大小×延迟×质量三角，本节讲多模型间的路由如何在这个三角上做请求级选择。与 A07 成本约束反向塑造产品（判断主轴）呼应：路由是”成本约束反向塑造产品分层/定价”的一个具体实现。与 S02 降本手段流派对照矩阵 是被收录关系：路由与语义缓存是 S02 矩阵里的两个流派，本节给它们的”质量代价/复杂度”列提供判断依据。

§8 关联节点

核心（必读）

m202 - 工程选型决策矩阵——本节深化其”模式 D 模型路由”
m209 - 推理成本控制手册——本节升高其路由降本手段的抽象层，补 fallback 风险
A04 推理成本三角·模型大小延迟质量——单模型三角，与本节多模型路由互补
A07 成本约束反向塑造产品——路由是其判断主轴的具体实现
S02 降本手段流派对照矩阵——路由/语义缓存作为流派被收录其中
A03 Token Economics 精算——Prompt Caching 与语义缓存的成本机制辨析
多模型分层——本节把该概念卡落地为可实现的 router + 兜底逻辑
Prompt Caching——与语义缓存的关键辨析对象

延伸（可选）

c06 - 架构演进：Dense MoE SSM Hybrid / MoE——MoE 与路由的层级辨析
c05 - 算力物理定律与 KV Cache / KV Cache——便宜模型并发上限的物理约束
c07 - 量化 Quantization 与端侧部署 / 量化——便宜模型的另一来源（量化版）
Embedding——语义缓存的相似度判断基础
幻觉——便宜模型兜底引入的质量回退风险
Scaling Laws / Test-Time Compute——强模型为何贵、升级该不该升的判断依据
E03 一个 RAG Agent 产品的 unit economics 拆解——路由在端到端账单里的位置
R02 中型·模型路由 + 语义缓存降本实验——本节的动手复现入口
S03 FinOps for AI·成本可观测与归因全景——路由策略的成本回归监控
c09 - RAG 架构——RAG 场景下的路由与缓存
0117社会学——度量与可见性（分类器定义”难度”的权力）
范式——路由是进步性还是退化性降本的判据
_成本工程系统化专题·总览 / AI PM 知识图谱·总索引

§9 修订日志

R0（2026-06-07，首稿）：按宪章 §4 十一段骨架 + 总览蓝图（A05 brief：cascade/router、便宜兜底、语义缓存、复杂升级；主轴=路由省钱的隐藏成本；接地 RouteLLM/FrugalGPT）写成。§0 做 MoE vs 路由 + routing vs cascade 双重框架辨析；§1 三杠杆（便宜兜底/级联升级/语义缓存）；§2 判断主轴三笔隐藏成本（质量回退/延迟/复杂度），各带症状→为什么错→正确做法→真实反例四件套；§3 PM 补盲（质量一致性预期/定价分层/跨供应商合规）；§4 对手框架三立场（路由乐观派 + Baumol 成本病 + 路径依赖/收益递增，均”接受+边界”）；§5 Baumol 跨域呼应落地（路由降本的经济学下界）；§6 面试/选型/复现三类落地；§7 与 m202（深化）/m209（升高+补缺）/c06/A04/A07/S02 显式升级对照不复述；§8 关联节点分核心/延伸。R0.1（2026-06-07，grounding 接地）：WebSearch 核实两个学术锚点，已将相应〔待核实〕升级为带可追溯线索的确证——① RouteLLM（arXiv 2406.18665，LMSYS / UC Berkeley Sky Lab，2024-07）：相对全程 GPT-4，MT-Bench 降本 >85%、MMLU >45%、GSM8K >35%，保住约 95% GPT-4 质量；并新增”降本幅度强依赖 benchmark（难任务空间小）“这一判断，写进 §1 表与 §2 隐藏成本一反例。② FrugalGPT（arXiv 2305.05176，Chen/Zaharia/Zou，斯坦福，2023-05）：匹配 GPT-4 质量降本最高约 98%，或同成本 +4% 准确率；明确标注为 2023 特定容错高数据集口径。仍待核实清单：③ OpenRouter/Portkey 具体”省 X%“营销数字（仍标〔待核实〕，不影响判断）；④ Prompt Caching 折扣率（指向 A03 详核，本节”约 10%/5 分钟 TTL”沿用总览已核口径）；⑤ m209 “平均成本约 37%” 为 m209 特定配比实测，换场景需重算（已标注）。
2026-06-12 内审·arXiv 联网核实：清了 1 个 / 存疑 0 个。§1 级联升级行 FrugalGPT 锚点（arXiv 2305.05176）经 WebFetch arxiv.org/abs/2305.05176 确认论文真实存在、标题/作者（Chen·Zaharia·Zou）/年份（2023-05）/“降本约 98%、+4% 准确率”口径均吻合，原行尾 〔当前是否仍成立待核实〕 改为 〔已核实 2026-06-12〕（引用本身），并把”该结论在当前模型/价格下是否仍成立”析出为前瞻性存疑、明确标注非引用问题、保留。本节另一处 待核实（§1 语义缓存命中率示意值）为非 arXiv 项，不动。RouteLLM（2406.18665）此前 R0.1 已接地，本轮复核 WebFetch 一致，未改。