R

A05 模型路由与 Mixture-of-models

创建 2026-06-07 更新 2026-06-12 10 条双链 成本工程 专题 AI 整理

A05 模型路由与 Mixture-of-models

本节点要解决的问题不是”路由能不能省钱”——它当然能,营销页都告诉你能省 60% 以上。真正的问题是:当你把一个请求交给一个分类器去决定”用便宜模型还是贵模型”时,你到底用什么换来了那笔省下的钱? 本节的视角是把模型路由从”降本手段”重诊为”一笔有隐藏负债的金融衍生品”——它用三种你看不见的成本(质量回退、延迟、系统复杂度),对冲了一笔你看得见的 token 节省。框架名:路由的隐藏成本三角(质量-延迟-复杂度),对照锚点是 RouteLLM 与 FrugalGPT 两个学术原型,以及 OpenRouter / Portkey / LiteLLM 等商业路由层。

模型路由(Model Routing)、级联(Cascade)、Mixture-of-models(MoM)这三个词在 JD 和白皮书里经常混用,但它们不是同一件事。本节先做一次框架级辨析挡掉混淆,再用三角去拆每一种省钱姿势背后的代价,最后给出 PM 在选型会和定价会上该问的那几个问题。


§0 为什么是”路由”框架而不是”MoE 框架”——先挡掉一个最常见的混淆

转型 PM 第一个会踩的坑,是把**模型路由(routing)**和 **Mixture-of-Experts(MoE)**当成同一件事,因为两者都带”用一部分而不是全部”的直觉。它们的抽象层完全不同,混淆会让你在选型会上说错话。

维度MoE(混合专家)模型路由 / Mixture-of-models
发生层级模型内部——一个模型里的 FFN 被拆成多个 expert,gating 网络在 token 级别选激活哪几个模型外部——在多个独立模型(甚至多家厂商)之上加一层 dispatcher,请求级别选用哪个模型
决策粒度每个 token、每一层每个请求(或每轮对话)
谁做的决策训练出来的 gating 权重一个外挂的分类器 / 打分器 / 规则
省的是什么激活参数少 → 算力(FLOPs)成本,但显存仍需常驻全部参数(见 c06 - 架构演进:Dense MoE SSM HybridMoE把简单请求分流到便宜模型 → API 调用单价 / per-query 成本
失效边界显存固定成本高(A04 的”固定成本换边际成本”)路由分类器本身的准确率与开销(本节主轴)

记忆口诀:MoE 是”一个模型内部省算力”,路由是”多个模型之间省单价”。 本节点只讲后者——外挂在模型之上的那层 dispatcher。这一层之所以值得单独成节,是因为它是 PM 能直接拍板的产品/工程决策(不需要训模型),且它的隐藏成本最容易被”省了 X%“的单一数字盖住。

路由内部还要再分两种范式,这是第二个易混点:

  • 路由(Routing)= 先判断后单选:一个分类器在请求进来时就预测”这个请求该用哪个模型”,然后只调用那一个。代表:RouteLLM。
  • 级联(Cascade)= 先便宜后升级:先用便宜模型答,再用一个打分器判断答案够不够好;不够好才升级调用贵模型。代表:FrugalGPT 的 LLM cascade。

两者的成本结构截然不同:路由是”一次调用,赌分类对不对”;级联是”可能两次调用(便宜的白调了),赌打分器判得准不准”。把它们当一回事,会让你在估成本时少算一笔级联的”白调”开销。


§1 路由怎么省钱:三条便宜姿势

把”用一个分类器决定模型”展开,省钱的来源其实是三条独立的杠杆,可以叠加:

杠杆机制学术/产品锚点真实降本声明(需核)
① 便宜模型兜底(Routing)多数请求其实是简单的(“今天星期几""改个错别字”),分类器把它们分流到小模型/便宜模型,只有判定为”难”的才上强模型RouteLLM(LMSYS / UC Berkeley Sky Lab,arXiv 2406.18665,2024-07):用 Chatbot Arena 偏好数据训路由器RouteLLM 论文实测:相对全程用 GPT-4,MT-Bench 上降本 >85%、MMLU 上 >45%、GSM8K 上 >35%,同时保住 GPT-4 约 95% 的质量(来源:arXiv 2406.18665 / LMSYS 2024-07-01 博客)。⚠️ 注意降本幅度强烈依赖 benchmark——MT-Bench 高、推理密集的 GSM8K 低
② 级联升级(Cascade)先用便宜模型答 + 自评打分,分数过线就返回,过不了线才升级到贵模型FrugalGPT(斯坦福 Chen/Zaharia/Zou,arXiv 2305.05176,2023-05):LLM cascade + completion 打分FrugalGPT 论文:可在匹配 GPT-4 质量的同时降本最高约 98%,或在同等成本下把准确率提升约 4%(来源:arXiv 2305.05176〔已核实 2026-06-12:论文真实存在,标题/作者 Chen·Zaharia·Zou/2023-05 与降本约 98%、+4% 准确率口径均吻合〕)。⚠️ 此为 2023 年特定下游数据集(HEADLINES/OVERRULING/COQA 等容错高任务)口径,模型与价格已大变,换场景须重测〔该结论当前是否仍成立属前瞻性存疑、非引用问题,保留〕
③ 语义缓存(Semantic Cache)把”语义相同”的历史请求结果缓存(用 Embedding 算相似度命中),命中就直接返回不调用模型GPTCache 等开源方案;与 Prompt Caching 不同——后者缓存的是 prompt 前缀的 KV,前者缓存的是整个问答对命中率决定一切,高频 FAQ 场景命中率可观,长尾对话场景命中率趋零〔示意,无通用值·待核实〕

[!note] 语义缓存 ≠ Prompt Caching,别混 Prompt Caching(A03 详解)缓存的是同一前缀的 KV Cache,按 token 折扣计价(如 Anthropic 约 10% 读取定价、5 分钟 TTL,详见 A03),它仍要走一次推理;语义缓存缓存的是整个回答,命中后 token 成本归零但有召回错误风险(语义”相近”不等于”答案能复用”——问”北京天气”和”上海天气”embedding 很近,复用就是灾难)。这两条在降本矩阵 S02 降本手段流派对照矩阵 里是不同流派,PM 别在评审会上把它们说成一回事。

三条杠杆的共性是:它们都引入了一个”判断器”(分类器/打分器/相似度阈值),而判断器会犯错。省下的钱是确定的,判断器的错误成本是隐藏的、概率性的、且常常被排除在”省了 X%“的口径之外。这就是下一节的主轴。


§2 判断主轴:路由省钱的三笔隐藏成本

⭐ 这是本节的命门。“路由省 60%“这种话术之所以危险,是因为它只报了分子(省下的 token 钱),把分母里三笔成本藏了起来。逐一拆解,每笔都按 症状 → 为什么会错 → 正确做法 → 真实反例 四件套。

隐藏成本一:质量回退(被分错的那 5%–20% 请求,代价不是线性的)

  • 症状:上线路由后总 token 账单确实降了 40%,但客诉率、人工复核量、退款率悄悄上升;某些”看起来简单实则要强模型”的请求被分给了小模型,答错了。Dashboard 上成本曲线漂亮,NPS 曲线难看。
  • 为什么会错:路由的省钱前提是”分类器分得准”,而分类器的错误分布不是均匀的。它最容易在”边界请求”上出错——而边界请求往往恰恰是高价值、低容错的那些(法律咨询里夹一句简单问候、医疗问诊里混一个常识问题)。更致命的是,一次质量回退的业务代价远大于一次调用省下的几分钱:省 0.01 美元 token,赔上一个用户的信任,这笔账在 per-token 视角里永远算不出来。把”质量”简化成一个 benchmark 平均分(RouteLLM 报的”保留 95% 质量”)会掩盖尾部——那 5% 的退化可能全砸在你最贵的客户身上。
  • 正确做法:(1) 路由质量不能只看 benchmark 平均分,要看分错请求的业务分布——给高价值/高风险意图(支付、医疗、法律、投诉)设禁止降级白名单,无论分类器怎么判都走强模型;(2) 把质量回退的业务成本(客诉成本、人工兜底成本、品牌损失)显式计入降本核算,而不是只算 token 差价;(3) 级联比纯路由更安全,因为级联有”打分器过线才返回”的二次闸门,但要算上级联的”白调”开销(见下节)。
  • 真实反例:FrugalGPT 报告的”降本约 98%“(来源:arXiv 2305.05176)是 2023 年在特定问答数据集(HEADLINES/OVERRULING/COQA 等)上的结果——这些是容错高、答案可机判的任务。把这个数字搬到”客户投诉分流""医疗预问诊”这类容错低、错误代价高的场景,降本幅度和质量保证会双双崩塌。同理 RouteLLM 的”降本 95% 保质量”在 MT-Bench(>85%)和 GSM8K(仅 >35%)上差出一倍多——推理密集的难任务,路由可分流的空间天然就小。Baumol 成本病在这里登场(见 §对手框架):质量敏感区是路由砍不动的成本刚性区。

隐藏成本二:延迟(级联的双跳,与分类器的串行开销)

  • 症状:用了级联后 P50 延迟还行,但 P95/P99 延迟翻倍——因为那些”便宜模型答了但没过线、要升级”的请求走了两趟推理,用户等了双倍时间还可能多付了钱。
  • 为什么会错:成本核算只算 token,不算延迟的产品成本。但延迟是有商业代价的——首 token 时间(TTFT)每多几百毫秒,对话产品的用户流失就上升。级联的本质是”用延迟(双跳)和算力(白调便宜模型)换取期望成本下降”,这是一个期望值优化,它在尾部(升级率高的请求)反而又慢又没省多少。纯路由的分类器虽然不双跳,但分类本身也要时间——如果分类器是另一个 LLM 调用,你为了省一次贵调用,先付了一次分类调用的延迟和成本。
  • 正确做法:(1) 分类器要——用小 embedding 模型 + 逻辑回归 / 一个微调过的小分类模型,而不是再调一次大模型当裁判(“用 GPT-4 判断该不该用 GPT-4”是自相矛盾的反模式);(2) 级联深度控制在 2 层,超过 2 层的级联,期望延迟和白调成本会吃掉降本收益;(3) 对延迟敏感的实时场景(语音、流式对话)慎用级联,改用纯路由或干脆不路由;(4) 监控指标要带 per-tier 升级率——升级率持续走高说明便宜模型那层在”白干”,路由的经济性已经倒挂。
  • 真实反例:m209 实测的”路由后平均成本约 37%“(即降本约 63%)是一个平均值〔为 m209 特定配比下的实测,见 m209 - 推理成本控制手册,换场景需重算〕。平均值掩盖了升级率高的那部分请求——它们既付了便宜模型的钱、又付了贵模型的钱、还多等了一趟,单看这部分请求路由是负收益。把平均值当全景,就会在升级率高的产品上误判。

隐藏成本三:系统复杂度(你养了一个需要持续运维的”模型选择器”)

  • 症状:路由上线半年后,团队多了一堆没人愿意接手的活:分类器随新模型上线要重训、阈值要随价格变动重调、多供应商的 fallback 链要测、某家 API 挂了路由要会切换……一个本来为”省钱”引入的组件,自己变成了一个持续烧人力的子系统。
  • 为什么会错:把路由当成”一次性配置”而非”持续运维的活系统”。但模型路由处在一个高速漂移的环境里:模型每隔几个月迭代(昨天的”强模型”今天变中端)、价格每隔几个月下调(A05 兜底用的”便宜模型”可能不再是最便宜的)、新模型加入要重新校准分类边界。分类器是用历史数据训练的,而它要预测的世界在持续变化——这是一种结构性的 幻觉外风险:路由决策基于的”哪个模型适合哪类请求”这张映射表,本身在过期。更隐蔽的是fallback 可靠性:商业路由层(OpenRouter / Portkey / LiteLLM)的卖点之一是”一家挂了自动切另一家”,但这引入了跨供应商的行为不一致(同一 prompt 在不同模型上输出格式/风格不同,下游解析可能崩)和路由层自身的可用性(你多了一个单点)。
  • 正确做法:(1) 把路由的 TCO(总拥有成本,见 m202 - 工程选型决策矩阵)算全:分类器训练/重训人力 + 阈值运维 + 多供应商测试 + 路由层自身的可用性风险 + 监控告警,而不是只算 token 差价——很多中小团队算全 TCO 后会发现”不如直接用一个性价比够好的中端模型”;(2) 从规则路由起步(按意图/长度/用户分层的硬规则),跑通了再上学习型路由(分类器)——别一上来就上最复杂的;(3) fallback 链要做输出契约校验(schema 校验 + 降级模板),不能假设两家模型行为一致;(4) 把”路由配置”纳入 S03 FinOps for AI·成本可观测与归因全景 的成本回归监控——价格变动后自动重评估路由策略是否还最优。
  • 真实反例:OpenRouter/Portkey 这类厂商的营销话术是”接一个 API,自动路由到最便宜/最优模型,省 X%“〔具体数字随厂商,待核实〕。它真实省的是”多供应商接入的工程时间”和”低复杂度请求的单价”,但它把”分类器维护、跨模型行为一致性、路由层可用性”这三笔运维成本转移给了你——而这三笔不在它的”省 X%“口径里。这是典型的成本转移而非成本消失(呼应 G01 推理成本代际谱系总图 的”退化性降本”判据:很多降本只是把成本挪到了别处)。

[!note] 三笔隐藏成本的统一诊断 质量回退、延迟、复杂度——这三笔的共性是:它们都不在 token 计价里,所以都不在”省了 X%“的口径里。路由的真实经济性 = token 节省 −(质量回退的业务成本 + 延迟的产品成本 + 复杂度的运维成本)。当且仅当这个差为正,路由才真的省钱。多数”路由省 60%“的声明只算了第一项。


§3 产品 PM 视角补盲:路由不只是工程问题

跳出”工程降本”视角,路由有三个 PM 容易看走眼的非技术面:

  • 用户心理模型——质量一致性预期:用户对一个产品的”聪明程度”有稳定预期。路由让同一个用户、同一类问题,今天被强模型答得很好、明天被分流到弱模型答得很差——这种”忽好忽坏”比”一直一般”更伤信任,因为它破坏了可预期性。免费/付费分层路由(免费用户走便宜模型)是合理的商业设计,但同一档位内的随机质量波动是产品事故。
  • 商业模式——路由是定价分层的实现手段:免费额度用便宜模型兜底、付费档解锁强模型,本质是把”模型路由”做成了”价格歧视”的技术底座(呼应 A07 成本约束反向塑造产品:你以为的产品分层,是成本路由的产物)。PM 要想清楚:路由省下的钱是落进毛利,还是用来补贴免费额度获客(CAC)?这决定了路由是”提效”还是”换增长”。
  • 合规边界——跨供应商路由的数据流向:fallback 到不同厂商意味着用户数据可能流向不同的数据处理方、不同的司法管辖区。对 Rick 所在的国际化/安全场景,“自动路由到最便宜模型”可能踩数据驻留(data residency)和供应商合规的红线——便宜的那家未必过得了合规。这是”成本最优”与”合规可用”的冲突,路由策略必须把合规约束作为硬白名单。

§4 对手框架回应:接受 + 边界

对手立场 A:路由乐观派(OpenRouter / Portkey 营销 + “路由能砍 60%+ 成本”)。 接受:对请求复杂度高度异质的产品(大量简单请求 + 少量难请求),路由对低复杂度请求降本显著,m209 实测平均成本约 37%(降本约 63%)确有其事〔m209 特定配比,见该节点〕,RouteLLM 在公开 benchmark 上也实测了”保住 GPT-4 约 95% 质量、MT-Bench 降本 >85%“的可行性(arXiv 2406.18665)。这是真降本,不是噱头。 边界与赌注:(1) 这个降本幅度是平均值,掩盖了升级率高的尾部(§2 隐藏成本二);(2) 它不含质量回退的业务成本与运维 TCO(§2 隐藏成本一、三);(3)Baumol 成本病(见下)指出存在路由砍不动的”刚性成本区”。我赌的是:对多数中小产品,算全 TCO 后路由的净收益远小于营销数字,很多场景”选一个够好的中端模型”比”上一套路由系统”更经济。

对手立场 B(Rick 未读对手框架 ①):Baumol 成本病(William Baumol,“服务业生产率难提升导致成本相对上升”)。 这是从经济学借来逼问本节自己盲点的框架。Baumol 的洞察:有些活动(现场演奏一首四重奏)的生产率无法靠技术提升,所以随着其他行业变便宜,它们的相对成本反而上升。映射到路由:质量敏感、不容错的请求(医疗、法律、支付、高客单价 B2B)不能用便宜模型兜底——它们构成一个”成本刚性区”,无论便宜模型多便宜、路由分类器多准,这部分请求的成本都不随技术进步下降,因为”必须用最强模型”是业务硬约束。它改变了什么判断:路由的降本上限不是由分类器准确率决定的,而是由你的请求里”刚性区占比”决定的——刚性区占比越高,路由的天花板越低。一个 90% 请求都是高风险咨询的产品,路由几乎无空间。这逼我承认:本节”路由能省钱”的主张有一个被业务结构锁死的上界,不是技术能突破的。

对手立场 C(Rick 未读对手框架 ②):路径依赖 / 收益递增(Paul David 的 QWERTY,1985;Brian Arthur 的收益递增)。 接受:早期为省成本选便宜模型 / 自建路由层,短期账面确实漂亮。 边界:路径依赖框架反问——早期的省钱选择会形成锁定。你为便宜模型积累的 prompt 工程、few-shot 示例、评测集、下游解析逻辑,都是针对那个模型调优的;当它落后、你想换模型时,迁移成本(重调 prompt、重测、重训分类器)随时间累积上升。自建路由层同理:一套深度耦合自家业务的 router,几年后可能比当初用一个标准化中端模型贵得多。它改变了什么判断:最优路由策略要把锁定的隐性成本算进去——有时”现在多花一点用标准化方案”比”现在省一点但锁死在便宜模型/自建路由”在 3 年 TCO 上更优。这破除了”一步到位选最便宜”的单边乐观。


§5 跨域呼应:Baumol 成本病作为路由降本的”经济学下界”

[!note] 跨域调度(非装饰) 本节点的核心跨域资源是 Baumol 成本病。它的作用是给”路由省钱”装一个经济学下界:技术乐观主义者会假设”只要分类器够准、便宜模型够强,路由就能无限逼近全程便宜模型的成本”。Baumol 说不——服务的质量刚性区不随生产率提升而降价。把这个框架接进来,PM 在评审会上就有了一句能挡住工程乐观的话:“我们请求里有多大比例落在不能降级的刚性区?路由的天花板由这个比例决定,不由分类器准确率决定。” 这把”路由能省多少”从一个工程参数问题(分类器 F1 多高)重构成一个业务结构问题(刚性区占比多大)——后者才是 PM 该拍的板。延伸阅读 0117社会学(度量与可见性):路由分类器把”请求难度”编码成一个可计算的标签,但”难度”本身是被这个标签定义的——分类器看不见的难度维度(情感、合规、品牌敏感)就被系统性地不可见了。


§6 PM 决策启示:面试 / 选型 / 复现三类落地

  • 面试桌:被问”怎么给 AI 产品降成本”时,不要只答”上模型路由”。答:“路由对异质请求有效,但它用三笔隐藏成本换 token 节省——质量回退(尾部砸高价值客户)、延迟(级联双跳)、运维复杂度(漂移环境里的活系统)。我会先问产品的请求复杂度分布和刚性区占比,刚性区高的产品路由空间小。“——这一答立刻把你和”听过 RouteLLM 的人”区分开。
  • 选型会:给工程的路由方案设三个必答问题:(1) 升级率/分类错误率监控有没有、分错的业务成本算没算?(2) 分类器自己是不是又调了一次大模型(自相矛盾的反模式)?(3) 算全 TCO(重训 + 阈值运维 + fallback 测试 + 路由层可用性)后净收益还有多少?三问问完,多数”省 60%“会缩水到一个诚实的数字。
  • 复现台:去 R02 中型·模型路由 + 语义缓存 降本实验 亲手搭一个 router(便宜模型兜底 + 强模型升级 + 语义缓存),实测降本幅度 vs 质量回退的权衡曲线——只有亲手把”省的钱”和”分错的请求”放在一张表上,才知道路由对你的场景是不是真划算。

§7 与已有节点的关系(不复述事实基础)

本节点对 m202 - 工程选型决策矩阵深化:m202 §2.2.2 把”模型路由”作为”模式 D”列入选型矩阵的一个选项,但只到”有这个选项”的粒度;本节把它展开成完整的成本工程——拆出 routing/cascade 的成本结构差异、三笔隐藏成本、Baumol 下界。对 m209 - 推理成本控制手册补缺 + 抽象层升高:m209 §2.6 给了”路由平均成本约 37%“的实测降本数字(工程降本手段清单层),本节不复述这个数字的实现,而是把它重诊为”一个被平均值掩盖了尾部成本的金融对冲”,并补上 m209 未展开的 fallback 可靠性风险跨供应商行为一致性问题。对 c06 - 架构演进:Dense MoE SSM Hybrid / MoE辨析(对话):§0 显式区分”MoE 内部省算力”与”路由外部省单价”,挡掉最常见的概念混淆。与 A04 推理成本三角·模型大小 延迟 质量横向互补:A04 讲单模型内的大小×延迟×质量三角,本节讲多模型间的路由如何在这个三角上做请求级选择。与 A07 成本约束反向塑造产品(判断主轴)呼应:路由是”成本约束反向塑造产品分层/定价”的一个具体实现。与 S02 降本手段流派对照矩阵被收录关系:路由与语义缓存是 S02 矩阵里的两个流派,本节给它们的”质量代价/复杂度”列提供判断依据。


§8 关联节点

核心(必读)

延伸(可选)


§9 修订日志

  • R0(2026-06-07,首稿):按宪章 §4 十一段骨架 + 总览蓝图(A05 brief:cascade/router、便宜兜底、语义缓存、复杂升级;主轴=路由省钱的隐藏成本;接地 RouteLLM/FrugalGPT)写成。§0 做 MoE vs 路由 + routing vs cascade 双重框架辨析;§1 三杠杆(便宜兜底/级联升级/语义缓存);§2 判断主轴三笔隐藏成本(质量回退/延迟/复杂度),各带症状→为什么错→正确做法→真实反例四件套;§3 PM 补盲(质量一致性预期/定价分层/跨供应商合规);§4 对手框架三立场(路由乐观派 + Baumol 成本病 + 路径依赖/收益递增,均”接受+边界”);§5 Baumol 跨域呼应落地(路由降本的经济学下界);§6 面试/选型/复现三类落地;§7 与 m202(深化)/m209(升高+补缺)/c06/A04/A07/S02 显式升级对照不复述;§8 关联节点分核心/延伸。R0.1(2026-06-07,grounding 接地):WebSearch 核实两个学术锚点,已将相应〔待核实〕升级为带可追溯线索的确证——① RouteLLM(arXiv 2406.18665,LMSYS / UC Berkeley Sky Lab,2024-07):相对全程 GPT-4,MT-Bench 降本 >85%、MMLU >45%、GSM8K >35%,保住约 95% GPT-4 质量;并新增”降本幅度强依赖 benchmark(难任务空间小)“这一判断,写进 §1 表与 §2 隐藏成本一反例。② FrugalGPT(arXiv 2305.05176,Chen/Zaharia/Zou,斯坦福,2023-05):匹配 GPT-4 质量降本最高约 98%,或同成本 +4% 准确率;明确标注为 2023 特定容错高数据集口径。仍待核实清单:③ OpenRouter/Portkey 具体”省 X%“营销数字(仍标〔待核实〕,不影响判断);④ Prompt Caching 折扣率(指向 A03 详核,本节”约 10%/5 分钟 TTL”沿用总览已核口径);⑤ m209 “平均成本约 37%” 为 m209 特定配比实测,换场景需重算(已标注)。
  • 2026-06-12 内审·arXiv 联网核实:清了 1 个 / 存疑 0 个。§1 级联升级行 FrugalGPT 锚点(arXiv 2305.05176)经 WebFetch arxiv.org/abs/2305.05176 确认论文真实存在、标题/作者(Chen·Zaharia·Zou)/年份(2023-05)/“降本约 98%、+4% 准确率”口径均吻合,原行尾 〔当前是否仍成立待核实〕 改为 〔已核实 2026-06-12〕(引用本身),并把”该结论在当前模型/价格下是否仍成立”析出为前瞻性存疑、明确标注非引用问题、保留。本节另一处 待核实(§1 语义缓存命中率示意值)为非 arXiv 项,不动。RouteLLM(2406.18665)此前 R0.1 已接地,本轮复核 WebFetch 一致,未改。