A04 推理成本三角·模型大小 延迟 质量
A04 推理成本三角·模型大小 延迟 质量
本节点要解决的问题:当工程同学说”换个大模型质量就上去了”、或产品同学说”加点延迟换便宜”时,PM 凭什么判断这笔交易划不划算? 答案的框架是一个三角——模型大小(≈成本)、延迟、质量三者不可三全,任何一个 AI 产品的推理形态都是在这个三角里选了一个点,而不是选了一条边。本节用”三角不可三全 + 按场景定位”这把尺,挡掉”既要又要还要”的产品幻觉,并补上 inference scaling(推理时算力)如何在 2025 年把这个原本的三角扭成了一个更复杂的四元约束。
§0 为什么是”三角”这个框架,而不是”成本曲线”
最常见的错误框架,是把推理成本理解成一条一维曲线:模型越大越贵、越准;越小越便宜、越糙。在这条曲线上做产品,就退化成”在便宜糙和贵准之间滑一个滑块”。
这个框架错在它漏掉了延迟这一维——而延迟在 AI 产品里不是工程细节,是直接决定用户留存与可用场景的产品属性。一个 70B 模型也许质量够、单价也能接受,但 P95 首 token 延迟 4 秒,在实时对话场景里就是不可用;同一个模型放到”夜间批量生成报告”场景里,4 秒延迟无所谓,质量和成本就成了唯一约束。同一个模型,在不同场景下落在三角的不同顶点附近——这正是”曲线框架”看不见的。
所以本专题用**三角(trilemma)**而非曲线:三个顶点是「模型大小(≈训练/推理成本)」「延迟」「质量」,三者构成一个不可能三角——你可以同时优化任意两个,第三个必然让步。这不是工程偷懒,是有物理与经济根因的(见 §1)。三角框架的产品含义是:别问”哪个模型最好”,要问”这个场景在三角的哪个顶点附近,我该牺牲哪一维”。
[!note] 与 m202 - 工程选型决策矩阵 的三角不是同一个 m202 讲的是更宏观的”质量×成本×可控性×合规”多维选型;A04 的三角是单次推理形态层面的物理三角(size/latency/quality),是 m202”成本预算”与”质量门槛”两个维度的显微镜。两者是抽象层关系,不是重复。
§1 三角的三条边:每条边的物理/经济根因
把三角拆成三条”你只能要两个”的边,每条边背后都有不可绕过的根因。
| 你想同时要 | 必然牺牲 | 根因 | PM 可操作判据 |
|---|---|---|---|
| 质量 + 低延迟 | 低成本 | 大模型质量高但 decode 慢,要靠更多/更贵的 GPU 并行、投机解码、更低 batch 来压延迟——这些都加钱 | 实时高质量场景(编程助手、客服)成本下不来,别承诺”又快又准又便宜” |
| 质量 + 低成本 | 低延迟 | 用大模型但拉高 batch size、走离线/批处理,单 token 成本摊薄,但单请求要排队等批 | 批量场景(夜间报告、数据标注)可省钱,但不能拿去做实时交互 |
| 低延迟 + 低成本 | 质量 | 用小模型/强量化,单价低、decode 快,但能力天花板低 | 高频低难度场景(分类、补全、路由兜底)可三角偏这个顶点 |
三条边的共同物理根:推理是 memory-bound 的(见 c05 - 算力物理定律与 KV Cache)。decode 阶段每生成一个 token 都要把整个模型权重从显存搬一遍,所以模型越大、decode 越慢、并发越受 KV Cache 显存挤压。这意味着”大模型”同时把”贵”和”慢”两个顶点拉向自己——这正是三角张力的物理来源。c05 给了 KV Cache 的物理公式(如 Llama-3-70B 在 100K tokens 下 KV Cache 占用约 32.8 GB〔来源:c05 节点,已核验〕);A04 在此之上回答 PM 关心的问题:这个物理上限怎么翻译成”我能不能既要质量又要低延迟还便宜”的产品判断。
[!note] 一处口径提醒 三角的”模型大小”顶点严格说是”计算量/参数量”的代理,不完全等于”成本”。MoE 把这两者解耦了——总参数大(显存贵)但激活参数小(算力便宜)。所以 MoE 不是”减小了模型”,是把三角的”成本”顶点拆成了”固定成本(显存常驻)“和”变动成本(每 token 算力)“两块(详见 §4 对手回应与 c06 - 架构演进:Dense MoE SSM Hybrid)。
§2 inference scaling:三角怎么被扭成四元约束(2025 的格式塔切换)
2024 年底到 2025 年,一件事改写了这张三角图:test-time compute / inference scaling——让模型在推理时”多想一会儿”(生成大量思维 token、或多次采样投票),用推理时算力换质量。代表是 OpenAI o1/o3 系列与各家的 reasoning/thinking 模式(见 c11 - System 2 思维与 Test-Time Compute、Test-Time Compute)。
这件事对成本三角的冲击是结构性的:质量不再只由”模型大小”决定,还能由”推理时花多少 token 思考”决定。 于是原来的三角多出一条轴——思考深度(reasoning token 数)。它的成本含义极其凶险:
- thinking token 按 output token 价计费(output 比 input 贵数倍,见 A03 Token Economics 精算),而一次复杂推理的 thinking token 可达数千到上万——per-task 成本可能比一次普通对话高一个数量级。这条已核验:Anthropic 明确 extended/adaptive thinking 的 thinking token 计入 output 价计费(现役 Claude Sonnet 档 output 为 $15/百万 token、含 thinking token;此 $15 自 Claude 3.7 Sonnet 起跨多版本未变)〔截至 2026-06 已核实,来源:platform.claude.com pricing 与 extended/adaptive thinking 文档;单价 volatile 需定期复查〕;OpenAI o 系列同样把内部 reasoning token 按 output 价计费、且这些 token 对用户不可见,单次可达 3,000–10,000 个隐藏 token〔截至 2026-06,来源:platform.openai.com/docs/pricing 与 o3 model 文档;具体区间为示意量级、需复查〕。
- 它让”高质量”不再有固定单价:同一个模型,开不开 thinking、思考多深,per-query 成本差几倍到几十倍。
这就是 §0 总览里那条反共识立场在 A04 的落点:reasoning model 的高分,常常是用产品化不可行的成本换来的。 一个 SWE-bench 高分若靠”每题跑 N 次采样 + 长 thinking”堆出来(接 0412 评测专题 的成本视角),那个分数对应的 per-task 成本可能高到没法做成产品(接 E03 一个 RAG Agent 产品的 unit economics 拆解)。
[!note] 给 PM 的可操作转译 inference scaling 把三角从”选模型”变成”选模型 × 思考预算的组合”。新的产品判断是:这个任务值得花多少 thinking token? 高价值低频任务(法律分析、疑难诊断)可以多想;高频低价值任务(自动补全、意图分类)开 thinking 就是烧钱。这条判断 m209/c05 都没有展开,是 A04 相对它们的补缺。
§3 三角的四个典型定位点(按场景落位,不是按”哪个最好”)
把三角四元约束(size / latency / quality / thinking budget)压成 PM 评审会上可用的四个定位档:
| 定位档 | 典型场景 | 三角偏向 | 选型动作 | 成本量级直觉 |
|---|---|---|---|---|
| 实时高质量 | 编程助手、付费客服、Copilot | 质量+低延迟,认贵 | 强模型 + 投机解码压延迟 + 必要时小模型预测 | 单价最高,靠订阅/高客单价养 |
| 实时够用 | 通用聊天、摘要、改写 | 低延迟+低成本,质量够用 | 中模型,或大模型 + 路由兜底(见 A05 模型路由与 Mixture-of-models) | 中等,靠路由/缓存压 |
| 离线高质量 | 夜间报告、数据合成、标注 | 质量+低成本,认慢 | 大模型 + 大 batch + 批处理折扣 | 单 token 最省 |
| 深思高价值 | 法律/医疗分析、复杂 Agent 规划 | 质量拉满,认贵又慢 | reasoning 模型 + 大 thinking 预算 | per-task 最贵,须低频高价值才成立 |
这张表的用法不是”选一档套上”,而是逼问自己的场景到底在哪一档——很多产品事故是把”实时高质量”档的承诺(又快又准)放到了只配”实时够用”档的预算里,最后要么超支、要么降质量、要么被迫加延迟,三角必然有一边塌。
§4 判断主轴:90% 的人在推理三角上会栽的四个坑
这一节是本节点的命门——每个坑按「症状 → 为什么会错 → 正确做法 → 真实反例」四件套写。
坑 1:想在三角里”既要又要还要”,承诺一个不存在的点
- 症状:PRD 写”用最强模型保证质量,同时做到秒级响应,且把单次成本控制在 X 以下”——三个顶点全占。
- 为什么会错:把三角当成可以同时优化的三个独立 KPI,忽略它们由同一物理约束(memory-bound decode + KV Cache 显存)耦合。大模型同时把”贵”和”慢”拉向自己,三者不是独立旋钮。
- 正确做法:先定场景在哪一档(§3),显式声明”本场景牺牲哪一维”,把被牺牲的那维写进 PRD 的非目标。
- 真实反例:早期不少”AI 实时视频字幕/翻译”产品承诺”大模型质量 + 直播级低延迟 + 免费”,上线后要么延迟塌(用户弃用)、要么偷偷换小模型(质量塌被吐槽)、要么烧钱(成本塌停服)——三角的三边轮流塌,本质是承诺了不存在的点。
坑 2:用”benchmark 质量”代替”场景质量”来定三角顶点
- 症状:选型时只看排行榜分数最高的模型,默认”质量顶点 = 榜单第一”。
- 为什么会错:榜单质量常是在”无延迟约束、可多次采样、可长 thinking”的理想条件下刷出来的(接 0412 评测专题);落到你的延迟和成本约束下,那个质量根本拿不到。质量顶点是带约束的质量,不是裸分。
- 正确做法:在你的真实延迟预算和成本预算下重测候选模型的质量(“约束内质量”),而非看裸榜。
- 真实反例:reasoning 模型在榜单上碾压,但若你的场景要求 1 秒内响应,它的长 thinking 根本来不及——那个高分对你的三角顶点毫无意义。把”o 系列榜单第一”直接写进实时对话产品选型,是典型的拿无约束质量骗自己。
坑 3:把 inference scaling 当”免费加质量的开关”,不算 thinking token 的账
- 症状:“反正开 thinking 质量更好,那就全场景默认开。”
- 为什么会错:thinking token 按 output 价计费、量大,per-task 成本可能涨一个数量级;高频场景默认开 thinking 等于成本失控。它是用钱买质量,不是免费午餐。
- 正确做法:把 thinking budget 当成一个显式产品参数按场景设——高价值低频开、高频低价值关或限额;并在成本计算器里把 thinking token 单列(见 R01 最小可运行·Token 成本计算器)。
- 真实反例:把 reasoning 模式默认开在一个高频客服 bot 上,月账单相对普通模型暴涨数倍而用户满意度几乎没动——因为客服问题大多不需要深推理,钱全花在了无谓的 thinking 上。
坑 4:用单一模型硬扛全场景,而不是让不同请求落到三角不同顶点
- 症状:全产品只用一个模型,要么为了质量全用大模型(高频请求烧钱),要么为了省钱全用小模型(难请求质量塌)。
- 为什么会错:一个产品的请求分布是异质的——大量简单请求 + 少量难请求。用一个固定三角顶点服务异质分布,必然在某一端浪费或失效。
- 正确做法:按请求难度路由——简单请求走”低延迟+低成本”顶点,难请求升级到”高质量”顶点(见 A05 模型路由与 Mixture-of-models、多模型分层)。
- 真实反例:全量用最强模型的产品,80% 的请求是”今天天气""谢谢”这类,本可用便宜小模型秒回,却都按最贵单价跑——m209 - 推理成本控制手册 实测路由可把平均成本压到约 37%〔来源:m209 节点,已核验;该数字为 m209 特定路由配比的实测值,换场景需重算〕,说明硬扛单模型在多数异质场景是巨大浪费。
§5 产品 PM 视角补盲:三角之外的三个”看走眼”点
工程视角只看 size/latency/quality/thinking 四元约束,但 PM 还得看三件工程视角看不见的东西:
- 延迟的”感知”≠延迟的”数值”:首 token 延迟(TTFT)比总延迟更影响体感——流式输出让用户在 0.5 秒看到第一个字,会觉得”快”,哪怕总耗时 8 秒。所以三角的”延迟”顶点在产品上可以靠交互设计部分缓解(流式、骨架屏、乐观更新),不必纯靠加钱压数值延迟。这是 PM 能省钱的地方:用体验设计买回一部分”低延迟”。
- 质量的”够用线”是商业决策,不是技术决策:三角让你”用质量换成本”,但换到哪条线是商业问题——免费档可以用更便宜更糙的模型(用户预期低),付费档才上强模型。质量分层 = 订阅分层的成本基础(接 E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解)。
- 合规会锁死三角的一个顶点:医疗/法律/金融等场景,监管或风险要求”必须用最强模型/必须可解释/数据不出域”,等于强行钉死质量或部署位置顶点,路由降本的空间被压缩——这正是下面 Baumol 成本病要讲的”成本刚性区”。
§6 对手框架回应:接受 + 边界
业界反方立场一:“小模型 + 蒸馏 + 量化在快速逼近大模型,三角的张力会消失,未来又快又准又便宜。“(小模型乐观派,如各家 7B/8B 模型逼近 GPT-3.5 的叙事)
- 接受:这条有真实证据——小模型这两年质量提升确实快,许多原来必须大模型的任务(摘要、分类、结构化抽取)现在小模型够用,三角整体在向”原点”收缩,同样质量的成本在降。这是真进步,不该否认。
- 边界与赌注:但三角张力不会消失,只会平移。小模型逼近的是”昨天的大模型”,而能力前沿(最难的推理、最长的上下文、最强的 Agent 规划)始终由最大最贵的模型把持——前沿任务的三角张力一直在。更要命的是 inference scaling 把”质量”重新和”算力”绑死了:哪怕模型变小,要顶级质量仍要靠 thinking token 堆算力。所以前沿质量永远贵,这是赌注。
业界反方立场二(★Rick 未读对手框架·破 echo chamber):Baumol 成本病——质量敏感服务的成本不随技术进步下降。(William Baumol & William Bowen, 1966,《Performing Arts: The Economic Dilemma》提出”成本病/Baumol’s cost disease”:生产率难以提升的服务业,其成本会相对上升)
- 跨域呼应(宪章 §6 要求具体展开,非空 invocation):Baumol 原说的是”现场音乐演出无法靠技术提效,所以相对成本越来越高”。把它搬到推理三角上,逼问的是一个本专题最该砍的乐观偏见——“等技术进步,所有成本都会降”。Baumol 的诊断是:有一类任务的质量本质上拒绝降本。 在推理三角里,这对应质量敏感场景的”成本刚性区”:医疗诊断、法律意见、金融风控这类场景,错误代价极高,不允许用便宜小模型兜底——它们必须用最强模型(甚至开满 thinking),于是这部分成本既不随小模型变便宜而下降,反而因为”必须用最贵的形态”而成为成本下限被锁死。
- 它改变了什么判断:没有 Baumol 这把尺,PM 容易把”路由能砍 60% 成本”当成普适结论(见 A05 模型路由与 Mixture-of-models 的对手回应)。有了它,正确判断是:路由降本的天花板由”刚性区占比”决定——一个全是高风险请求的产品(如 AI 法律顾问),可路由空间趋近于零,三角的”质量”顶点被合规和风险钉死,再怎么技术进步也降不动。这条直接限定了 E03 一个 RAG Agent 产品的 unit economics 拆解 里”路由能省多少”的上界,也是 §7 failure scenario 的根据。
§7 失效边界(failure scenario)
本节点的判断在以下场景失效,显式标注(呼应总览 §7):
- “三角不可三全”在成本占比极低的场景弱化——若推理成本远小于客单价(低频高价 B2B 工具),三角张力对产品决策几乎无影响,此时为省一点推理成本牺牲质量是捡芝麻丢西瓜,三角视角会误导。
- “按场景定位顶点”在请求难度高度同质时退化——若全是同等难度请求,没有路由空间,三角就退回成”选一个固定点”的简单问题,§3 的四档定位失去意义。
- inference scaling 的成本判断依赖当前定价结构——当前结论基于”thinking/reasoning token 按 output 价计费”这一已核验前提(Anthropic、OpenAI o 系列均如此〔来源同 §2,以 2026-06·待复核价位〕);若未来改为 input 价计费或大幅折扣(如某种 reasoning 缓存),“开 thinking 就是烧钱”的结论需重估。
§8 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试桌:被问”AI 产品怎么平衡成本和体验”,别答”我们会持续优化”。答:“这是一个 size×latency×quality 的不可能三角,我会先定场景档位——实时高质量认贵、批量认慢、高频用路由——再显式声明牺牲哪一维;reasoning 模型我会把 thinking budget 当产品参数按场景设,而不是默认全开。” 一句话显出你算过账、懂物理根因。
- 选型会:把候选模型放进”约束内质量”测试(你的真实延迟和成本预算下),而非看裸榜;对 reasoning 模型,单独评估 per-task 成本(含 thinking token),别只看分。
- 复现台:用 R01 最小可运行·Token 成本计算器 把 thinking token 单列,算三个档位(实时/批量/深思)的 per-query 成本差,亲手确认”三角的每个顶点值多少钱”;用 R02 中型·模型路由 + 语义缓存 降本实验 实测路由把请求分散到不同顶点后的降本幅度与质量回退。
§9 与已有节点的关系(不复述事实基础)
- 对照 c05 - 算力物理定律与 KV Cache(抽象化):c05 给推理的物理底层(memory-bound、KV Cache 显存公式、Prefill/Decode、投机解码吞吐 2–3×〔来源:c05,已核验〕);A04 不复述这些公式,而是把它们翻译成 PM 的三角判断——“为什么大模型同时贵又慢""为什么低延迟要加钱”。c05 回答物理,A04 回答取舍。
- 对照 c07 - 量化 Quantization 与端侧部署(映射):c07 给”用量化换成本”的物理本质与质量损失门槛;A04 把量化定位成”在三角里用质量换成本/延迟的一种手段”,并指出其质量损失在长程/精确任务上非线性放大(与 A06 端侧与云端成本重构 衔接)。
- 对照 c06 - 架构演进:Dense MoE SSM Hybrid(对话):c06 讲架构能力取舍;A04 接”架构选择即三角顶点选择”——MoE 用显存(固定成本)换算力(变动成本),是把三角的”成本”顶点拆成两块(见 §1 口径提醒)。
- 对照 m202 - 工程选型决策矩阵(深化):A04 是 m202”质量门槛 + 成本预算”两维度的显微镜,把宏观选型矩阵里的两格放大成单次推理的物理三角。
- 升级 m209 - 推理成本控制手册(补缺):m209 §2.6 停在”路由/缓存等降本手段清单”;A04 补两块 m209 未展开的——(a) inference scaling / thinking token 单独计费如何把三角扭成四元约束;(b) 用 Baumol 成本病给出”路由降本天花板”的判据。不复述 m209 的具体降本数字(仅在 §4 坑 4 引用其路由 37% 实测值并标注为特定场景值)。
§10 关联节点
核心(必读)
- A03 Token Economics 精算 —— thinking token 计费、output/input 价差是三角第四轴的成本基础
- A05 模型路由与 Mixture-of-models —— 让异质请求落到三角不同顶点的工程实现
- c05 - 算力物理定律与 KV Cache —— 三角张力的物理根因(memory-bound、KV Cache)
- c11 - System 2 思维与 Test-Time Compute —— inference scaling 的来源
- Test-Time Compute —— 推理时算力换质量的概念卡
- c06 - 架构演进:Dense MoE SSM Hybrid —— MoE 把成本顶点拆成固定/变动两块
- A07 成本约束反向塑造产品 —— 三角的”延迟/质量/成本”如何倒逼产品形态(判断主轴)
延伸(可选)
- c07 - 量化 Quantization 与端侧部署、A06 端侧与云端成本重构 —— 量化作为三角降本手段
- m209 - 推理成本控制手册、m202 - 工程选型决策矩阵 —— 升级对照的旧节点
- E03 一个 RAG Agent 产品的 unit economics 拆解 —— 三角顶点选择落到真实账单
- E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解 —— 质量分层=订阅分层
- R01 最小可运行·Token 成本计算器、R02 中型·模型路由 + 语义缓存 降本实验 —— 动手算三角顶点的钱
- 量化、MoE、KV Cache、多模型分层 —— 概念卡
- Scaling Laws —— 训练侧 scaling 与 inference scaling 的对照
- _成本工程系统化专题·总览、AI PM 知识图谱·总索引
§11 修订日志
- R0(2026-06-07,初稿):按宪章 §4 十一段骨架成稿。核心立场”三角不可三全·按场景定位”+ inference scaling 把三角扭成四元约束(thinking token 第四轴)。判断主轴四坑(既要又要还要 / benchmark 质量≠场景质量 / thinking token 当免费开关 / 单模型硬扛异质分布)均配症状→为什么错→正确做法→真实反例四件套。对手回应两处:小模型乐观派(接受+前沿质量永远贵的边界)、★Baumol 成本病(Rick 未读对手框架,具体展开”质量敏感场景成本刚性区”如何锁死路由降本天花板,与总览 §6/§7 对手清单 #4、failure #2 对齐)。升级对照 c05(物理→取舍翻译)/c07/c06/m202/m209,明确不复述事实。已核验:c05 的 KV Cache 32.8GB、投机解码 2–3×;m209 路由平均成本 37%(均标注来源与场景边界)。
- R1(2026-06-07,grounding pass):WebSearch 核实 thinking/reasoning token 计费口径——Anthropic extended thinking 的 thinking token 按 output 价计费(Claude 3.7 Sonnet output $15/百万 token 含 thinking)、OpenAI o 系列内部 reasoning token 同样按 output 价计费且不可见、单次 3,000–10,000 隐藏 token(来源:platform.claude.com/docs、platform.openai.com/docs/pricing、o3 model 文档)。据此把 §2/§7 原 〔待核实〕 升级为带来源的接地陈述,volatile 价位仍标〔以 2026-06·待复核〕。遗留待核实:当前各家具体价位数字会漂移,文中只用”按 output 价计费/数量级”等结构性结论,未硬编单价。双链全部使用总览已确认存在的 basename。
- 2026-06-11 P3.1 接地修复:§3 thinking token 计费段把”Claude 3.7 Sonnet output $15/百万·待复核当前价位”改为版本无关的”现役 Claude Sonnet 档 output $15/百万、此价自 3.7 Sonnet 起跨版本未变”,并标〔截至 2026-06 已核实,volatile 需定期复查〕——经 claude-api 权威定价表复核 $15 仍为现役 Sonnet output 真值。§1/§4 引用的 c05 KV cache 32.8GB 经独立 WebSearch 交叉验证为 Llama-3-70B 100K FP16 真值,承重无误。