多模型分层

把不同任务路由到不同等级模型的工程策略：简单任务给小/快/便宜模型，复杂任务才升级到大/慢/贵模型。是 2024 年随着 Claude / OpenAI / Google / DeepSeek 等同时提供 Opus/Sonnet/Haiku / GPT-5/o3-pro/o3-mini / Gemini Pro/Flash 等多档型号后，AI 应用层最重要的成本-性能优化范式。也是 Claude Code 等 IDE Agent、企业 RAG、客服 Agent、搜索增强等多种产品形态的标准架构。

核心问题

现实条件：同一家厂商提供 3–5 个能力 / 速度 / 价格成阶梯的模型；不同任务对模型能力的需求差异 3–10 倍；用户期望”快 + 准 + 便宜”三件齐全
天真做法：所有任务都用旗舰大模型 → 成本爆炸、延迟过高
多模型分层做法：用一个调度层 (router) 根据任务特征选择合适等级的模型，把整体成本压缩 50–90%，同时保持关键任务质量

常见分层范式

二层（快 + 重）
- 快模型层：路由判断、关键词抽取、简单总结、格式转换、确定性任务
- 重模型层：复杂推理、长 horizon 规划、跨文档分析、最终答案生成
- 代表实现：Claude Code 的 Sonnet/Haiku 混合调度；Cursor 早期的 GPT-4 / GPT-3.5 切换
三层（路由 + 主力 + 旗舰）
- 路由层（最小模型 / 规则）：判断任务类型，决定 routing
- 主力层（中等模型）：承担 80% 任务量
- 旗舰层（最大模型）：只用于难任务或主力层失败时的 fallback
- 代表实现：企业 RAG 平台的”GPT-4o-mini 路由 → GPT-4o 主答 → o1 兜底”
能力专精分层（横向）
- 不按”大小”分，按”能力”分：Coding 任务用 Claude、视觉任务用 Gemini、推理任务用 OpenAI o3、中文用 DeepSeek
- 代表实现：Perplexity 的 Pro Search、Poe / OpenRouter 的多模型聚合
推理时计算分层（reasoning effort）
- 同一模型在不同任务下使用不同 thinking budget：Claude 4.7 的 thinking on/off、o3 的 reasoning effort high/medium/low
- 代表实现：OpenAI o3 的”自动选择推理深度”路由、Claude 的 extended thinking 控制

关键设计决策

路由器是什么形态？
- 规则路由（关键词、任务长度、用户类别）：稳定可控但泛化弱
- 小模型路由（用一个 Haiku / GPT-4o-mini 做分类）：泛化强但增加一跳延迟
- 学习型路由（基于历史 (prompt, model, outcome) 数据训练专门 router）：成熟产品才负担得起
fallback 机制：主模型失败 / 信心低 / 超时 → 升级到大模型；常用启发式包括”答案太短""模型主动声明不确定""结构化输出 schema 失败”
缓存友好性：Prompt Caching 在每个模型上是独立的缓存空间，频繁切换模型会丢失 cache 命中。设计时倾向”路由器选定后整轮使用一个模型”，而不是”每次推理临时选模型”
观测性：必须记录 (任务类型, 选中的模型, 实际成本, 用户满意度) 元组以做 A/B；缺乏这类观测的多模型路由很快退化为”猜测式调度”

实际收益与坑

典型收益：成本 30–70% 下降、p50 延迟 30–50% 下降；旗舰模型质量”几乎不可感”地下降
常见坑一：路由判断本身不准
- 简单关键词分类无法识别”看起来短但需要长推理”的任务，把硬任务路由到小模型 → 用户拿到错误答案
常见坑二：小模型自信地犯错
- 小模型在边界情况下不会 abstain，而是”自信地胡说”，比大模型的”不知道”更难恢复
常见坑三：fallback 链过长
- “小 → 中 → 大 → 大+thinking” 链路设计听起来稳，但实际延迟和成本可能超过直接用大模型
常见坑四：用户期待错配
- 付费用户认为”我付了钱就应该用最强模型”——多模型分层在 B2C 产品里需要透明告知或绕开（如 Perplexity 显示用了哪个模型）

产品形态案例

Claude Code：Opus 主对话、Sonnet 默认编码、Haiku 用于轻任务，user 可以 /fast 切换；并通过 SubAgent / Skill 体系把任务路由具象化
Cursor：Composer 用大模型、Chat 用中模型、autocomplete 用小型自研模型，分层粒度细
企业 RAG：embedding 用 Voyage / OpenAI text-embedding-3-small；rerank 用专门 Cohere/Voyage rerank；最终答案用旗舰
Perplexity：Pro Search 让用户选 Claude / GPT / Sonar，免费用户固定走自研 + 中等模型
OpenRouter / Helicone：把多模型路由作为基础设施服务出售给开发者

对 Rick 的价值

AI PM 的核心架构能力：在通往 AI PM 之路的能力坐标里，“如何设计成本/质量可控的多模型系统”是 2025 后 PM 区分度最高的硬技能之一。比单模型 prompt engineering 更上一层。
理解 Claude Code / Cursor 等 IDE Agent 的设计哲学：这些产品的工程实现高度依赖多模型分层；理解它就能反推产品决策（为什么 Claude Code 自动选模型？为什么有 /fast？为什么 Skill 系统存在？）
评估”AI 产品 unit economics”的钥匙：Rick 在〔私人记录〕中观察 Microsoft Copilot 落地差，部分原因是巨型组织难以做精细的多模型路由——它们倾向”all-in 最强模型”。多模型分层能力差距是大公司 vs AI native 创业公司在产品体验上的隐性分水岭。
个人工作流参考：Rick 自己日常使用 Claude Code 时也在做隐式多模型分层（什么时候用 Opus、什么时候 /fast、什么时候用 SubAgent），这一概念帮助把直觉显性化为方法论。

关联节点

模型生态：Claude Claude Opus Claude Sonnet Claude Code OpenAI ChatGPT Gemini DeepSeek Perplexity
工程基础：Prompt Caching Function Calling Agent KV Cache
产品议题：m205 - AI 产品形态：从工具到 Agent m206 - Agent 产品化：记忆机制与技术进展 c14 - 模型评估体系与 Goodhart 陷阱
职业议题：通往 AI PM 之路〔私人记录〕
相关概念：reasoning model、推理时算力 scaling、c11 - 推理模型与 Long CoT

来源 / 证据池

工程实践：Anthropic 工程博客、Cursor / Cline / Claude Code 开源讨论
学术：FrugalGPT (Stanford 2023, arXiv:2305.05176) 提出 LLM cascade 的早期形式化
行业分析：Stratechery、Latent Space、SemiAnalysis 关于推理时算力经济学的系列文章
Rick 库内：〔私人记录〕〔私人记录〕