A04 推理成本三角·模型大小延迟质量

本节点要解决的问题：当工程同学说”换个大模型质量就上去了”、或产品同学说”加点延迟换便宜”时，PM 凭什么判断这笔交易划不划算？ 答案的框架是一个三角——模型大小（≈成本）、延迟、质量三者不可三全，任何一个 AI 产品的推理形态都是在这个三角里选了一个点，而不是选了一条边。本节用”三角不可三全 + 按场景定位”这把尺，挡掉”既要又要还要”的产品幻觉，并补上 inference scaling（推理时算力）如何在 2025 年把这个原本的三角扭成了一个更复杂的四元约束。

§0 为什么是”三角”这个框架，而不是”成本曲线”

最常见的错误框架，是把推理成本理解成一条一维曲线：模型越大越贵、越准；越小越便宜、越糙。在这条曲线上做产品，就退化成”在便宜糙和贵准之间滑一个滑块”。

这个框架错在它漏掉了延迟这一维——而延迟在 AI 产品里不是工程细节，是直接决定用户留存与可用场景的产品属性。一个 70B 模型也许质量够、单价也能接受，但 P95 首 token 延迟 4 秒，在实时对话场景里就是不可用；同一个模型放到”夜间批量生成报告”场景里，4 秒延迟无所谓，质量和成本就成了唯一约束。同一个模型，在不同场景下落在三角的不同顶点附近——这正是”曲线框架”看不见的。

所以本专题用**三角（trilemma）**而非曲线：三个顶点是「模型大小（≈训练/推理成本）」「延迟」「质量」，三者构成一个不可能三角——你可以同时优化任意两个，第三个必然让步。这不是工程偷懒，是有物理与经济根因的（见 §1）。三角框架的产品含义是：别问”哪个模型最好”，要问”这个场景在三角的哪个顶点附近，我该牺牲哪一维”。

[!note] 与 m202 - 工程选型决策矩阵的三角不是同一个 m202 讲的是更宏观的”质量×成本×可控性×合规”多维选型；A04 的三角是单次推理形态层面的物理三角（size/latency/quality），是 m202”成本预算”与”质量门槛”两个维度的显微镜。两者是抽象层关系，不是重复。

§1 三角的三条边：每条边的物理/经济根因

把三角拆成三条”你只能要两个”的边，每条边背后都有不可绕过的根因。

你想同时要	必然牺牲	根因	PM 可操作判据
质量 + 低延迟	低成本	大模型质量高但 decode 慢，要靠更多/更贵的 GPU 并行、投机解码、更低 batch 来压延迟——这些都加钱	实时高质量场景（编程助手、客服）成本下不来，别承诺”又快又准又便宜”
质量 + 低成本	低延迟	用大模型但拉高 batch size、走离线/批处理，单 token 成本摊薄，但单请求要排队等批	批量场景（夜间报告、数据标注）可省钱，但不能拿去做实时交互
低延迟 + 低成本	质量	用小模型/强量化，单价低、decode 快，但能力天花板低	高频低难度场景（分类、补全、路由兜底）可三角偏这个顶点

三条边的共同物理根：推理是 memory-bound 的（见 c05 - 算力物理定律与 KV Cache）。decode 阶段每生成一个 token 都要把整个模型权重从显存搬一遍，所以模型越大、decode 越慢、并发越受 KV Cache 显存挤压。这意味着”大模型”同时把”贵”和”慢”两个顶点拉向自己——这正是三角张力的物理来源。c05 给了 KV Cache 的物理公式（如 Llama-3-70B 在 100K tokens 下 KV Cache 占用约 32.8 GB〔来源：c05 节点，已核验〕）；A04 在此之上回答 PM 关心的问题：这个物理上限怎么翻译成”我能不能既要质量又要低延迟还便宜”的产品判断。

[!note] 一处口径提醒三角的”模型大小”顶点严格说是”计算量/参数量”的代理，不完全等于”成本”。MoE 把这两者解耦了——总参数大（显存贵）但激活参数小（算力便宜）。所以 MoE 不是”减小了模型”，是把三角的”成本”顶点拆成了”固定成本（显存常驻）“和”变动成本（每 token 算力）“两块（详见 §4 对手回应与 c06 - 架构演进：Dense MoE SSM Hybrid）。

§2 inference scaling：三角怎么被扭成四元约束（2025 的格式塔切换）

2024 年底到 2025 年，一件事改写了这张三角图：test-time compute / inference scaling——让模型在推理时”多想一会儿”（生成大量思维 token、或多次采样投票），用推理时算力换质量。代表是 OpenAI o1/o3 系列与各家的 reasoning/thinking 模式（见 c11 - System 2 思维与 Test-Time Compute、Test-Time Compute）。

这件事对成本三角的冲击是结构性的：质量不再只由”模型大小”决定，还能由”推理时花多少 token 思考”决定。 于是原来的三角多出一条轴——思考深度（reasoning token 数）。它的成本含义极其凶险：

thinking token 按 output token 价计费（output 比 input 贵数倍，见 A03 Token Economics 精算），而一次复杂推理的 thinking token 可达数千到上万——per-task 成本可能比一次普通对话高一个数量级。这条已核验：Anthropic 明确 extended/adaptive thinking 的 thinking token 计入 output 价计费（现役 Claude Sonnet 档 output 为 $15/百万 token、含 thinking token；此 $15 自 Claude 3.7 Sonnet 起跨多版本未变）〔截至 2026-06 已核实，来源：platform.claude.com pricing 与 extended/adaptive thinking 文档；单价 volatile 需定期复查〕；OpenAI o 系列同样把内部 reasoning token 按 output 价计费、且这些 token 对用户不可见，单次可达 3,000–10,000 个隐藏 token〔截至 2026-06，来源：platform.openai.com/docs/pricing 与 o3 model 文档；具体区间为示意量级、需复查〕。
它让”高质量”不再有固定单价：同一个模型，开不开 thinking、思考多深，per-query 成本差几倍到几十倍。

这就是 §0 总览里那条反共识立场在 A04 的落点：reasoning model 的高分，常常是用产品化不可行的成本换来的。 一个 SWE-bench 高分若靠”每题跑 N 次采样 + 长 thinking”堆出来（接 0412 评测专题的成本视角），那个分数对应的 per-task 成本可能高到没法做成产品（接 E03 一个 RAG Agent 产品的 unit economics 拆解）。

[!note] 给 PM 的可操作转译 inference scaling 把三角从”选模型”变成”选模型 × 思考预算的组合”。新的产品判断是：这个任务值得花多少 thinking token？ 高价值低频任务（法律分析、疑难诊断）可以多想；高频低价值任务（自动补全、意图分类）开 thinking 就是烧钱。这条判断 m209/c05 都没有展开，是 A04 相对它们的补缺。

§3 三角的四个典型定位点（按场景落位，不是按”哪个最好”）

把三角四元约束（size / latency / quality / thinking budget）压成 PM 评审会上可用的四个定位档：

定位档	典型场景	三角偏向	选型动作	成本量级直觉
实时高质量	编程助手、付费客服、Copilot	质量+低延迟，认贵	强模型 + 投机解码压延迟 + 必要时小模型预测	单价最高，靠订阅/高客单价养
实时够用	通用聊天、摘要、改写	低延迟+低成本，质量够用	中模型，或大模型 + 路由兜底（见 A05 模型路由与 Mixture-of-models）	中等，靠路由/缓存压
离线高质量	夜间报告、数据合成、标注	质量+低成本，认慢	大模型 + 大 batch + 批处理折扣	单 token 最省
深思高价值	法律/医疗分析、复杂 Agent 规划	质量拉满，认贵又慢	reasoning 模型 + 大 thinking 预算	per-task 最贵，须低频高价值才成立

这张表的用法不是”选一档套上”，而是逼问自己的场景到底在哪一档——很多产品事故是把”实时高质量”档的承诺（又快又准）放到了只配”实时够用”档的预算里，最后要么超支、要么降质量、要么被迫加延迟，三角必然有一边塌。

§4 判断主轴：90% 的人在推理三角上会栽的四个坑

这一节是本节点的命门——每个坑按「症状 → 为什么会错 → 正确做法 → 真实反例」四件套写。

坑 1：想在三角里”既要又要还要”，承诺一个不存在的点

症状：PRD 写”用最强模型保证质量，同时做到秒级响应，且把单次成本控制在 X 以下”——三个顶点全占。
为什么会错：把三角当成可以同时优化的三个独立 KPI，忽略它们由同一物理约束（memory-bound decode + KV Cache 显存）耦合。大模型同时把”贵”和”慢”拉向自己，三者不是独立旋钮。
正确做法：先定场景在哪一档（§3），显式声明”本场景牺牲哪一维”，把被牺牲的那维写进 PRD 的非目标。
真实反例：早期不少”AI 实时视频字幕/翻译”产品承诺”大模型质量 + 直播级低延迟 + 免费”，上线后要么延迟塌（用户弃用）、要么偷偷换小模型（质量塌被吐槽）、要么烧钱（成本塌停服）——三角的三边轮流塌，本质是承诺了不存在的点。

坑 2：用”benchmark 质量”代替”场景质量”来定三角顶点

症状：选型时只看排行榜分数最高的模型，默认”质量顶点 = 榜单第一”。
为什么会错：榜单质量常是在”无延迟约束、可多次采样、可长 thinking”的理想条件下刷出来的（接 0412 评测专题）；落到你的延迟和成本约束下，那个质量根本拿不到。质量顶点是带约束的质量，不是裸分。
正确做法：在你的真实延迟预算和成本预算下重测候选模型的质量（“约束内质量”），而非看裸榜。
真实反例：reasoning 模型在榜单上碾压，但若你的场景要求 1 秒内响应，它的长 thinking 根本来不及——那个高分对你的三角顶点毫无意义。把”o 系列榜单第一”直接写进实时对话产品选型，是典型的拿无约束质量骗自己。

坑 3：把 inference scaling 当”免费加质量的开关”，不算 thinking token 的账

症状：“反正开 thinking 质量更好，那就全场景默认开。”
为什么会错：thinking token 按 output 价计费、量大，per-task 成本可能涨一个数量级；高频场景默认开 thinking 等于成本失控。它是用钱买质量，不是免费午餐。
正确做法：把 thinking budget 当成一个显式产品参数按场景设——高价值低频开、高频低价值关或限额；并在成本计算器里把 thinking token 单列（见 R01 最小可运行·Token 成本计算器）。
真实反例：把 reasoning 模式默认开在一个高频客服 bot 上，月账单相对普通模型暴涨数倍而用户满意度几乎没动——因为客服问题大多不需要深推理，钱全花在了无谓的 thinking 上。

坑 4：用单一模型硬扛全场景，而不是让不同请求落到三角不同顶点

症状：全产品只用一个模型，要么为了质量全用大模型（高频请求烧钱），要么为了省钱全用小模型（难请求质量塌）。
为什么会错：一个产品的请求分布是异质的——大量简单请求 + 少量难请求。用一个固定三角顶点服务异质分布，必然在某一端浪费或失效。
正确做法：按请求难度路由——简单请求走”低延迟+低成本”顶点，难请求升级到”高质量”顶点（见 A05 模型路由与 Mixture-of-models、多模型分层）。
真实反例：全量用最强模型的产品，80% 的请求是”今天天气""谢谢”这类，本可用便宜小模型秒回，却都按最贵单价跑——m209 - 推理成本控制手册实测路由可把平均成本压到约 37%〔来源：m209 节点，已核验；该数字为 m209 特定路由配比的实测值，换场景需重算〕，说明硬扛单模型在多数异质场景是巨大浪费。

§5 产品 PM 视角补盲：三角之外的三个”看走眼”点

工程视角只看 size/latency/quality/thinking 四元约束，但 PM 还得看三件工程视角看不见的东西：

延迟的”感知”≠延迟的”数值”：首 token 延迟（TTFT）比总延迟更影响体感——流式输出让用户在 0.5 秒看到第一个字，会觉得”快”，哪怕总耗时 8 秒。所以三角的”延迟”顶点在产品上可以靠交互设计部分缓解（流式、骨架屏、乐观更新），不必纯靠加钱压数值延迟。这是 PM 能省钱的地方：用体验设计买回一部分”低延迟”。
质量的”够用线”是商业决策，不是技术决策：三角让你”用质量换成本”，但换到哪条线是商业问题——免费档可以用更便宜更糙的模型（用户预期低），付费档才上强模型。质量分层 = 订阅分层的成本基础（接 E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解）。
合规会锁死三角的一个顶点：医疗/法律/金融等场景，监管或风险要求”必须用最强模型/必须可解释/数据不出域”，等于强行钉死质量或部署位置顶点，路由降本的空间被压缩——这正是下面 Baumol 成本病要讲的”成本刚性区”。

§6 对手框架回应：接受 + 边界

业界反方立场一：“小模型 + 蒸馏 + 量化在快速逼近大模型，三角的张力会消失，未来又快又准又便宜。“（小模型乐观派，如各家 7B/8B 模型逼近 GPT-3.5 的叙事）

接受：这条有真实证据——小模型这两年质量提升确实快，许多原来必须大模型的任务（摘要、分类、结构化抽取）现在小模型够用，三角整体在向”原点”收缩，同样质量的成本在降。这是真进步，不该否认。
边界与赌注：但三角张力不会消失，只会平移。小模型逼近的是”昨天的大模型”，而能力前沿（最难的推理、最长的上下文、最强的 Agent 规划）始终由最大最贵的模型把持——前沿任务的三角张力一直在。更要命的是 inference scaling 把”质量”重新和”算力”绑死了：哪怕模型变小，要顶级质量仍要靠 thinking token 堆算力。所以前沿质量永远贵，这是赌注。

业界反方立场二（★Rick 未读对手框架·破 echo chamber）：Baumol 成本病——质量敏感服务的成本不随技术进步下降。（William Baumol & William Bowen, 1966，《Performing Arts: The Economic Dilemma》提出”成本病/Baumol’s cost disease”：生产率难以提升的服务业，其成本会相对上升）

跨域呼应（宪章 §6 要求具体展开，非空 invocation）：Baumol 原说的是”现场音乐演出无法靠技术提效，所以相对成本越来越高”。把它搬到推理三角上，逼问的是一个本专题最该砍的乐观偏见——“等技术进步，所有成本都会降”。Baumol 的诊断是：有一类任务的质量本质上拒绝降本。 在推理三角里，这对应质量敏感场景的”成本刚性区”：医疗诊断、法律意见、金融风控这类场景，错误代价极高，不允许用便宜小模型兜底——它们必须用最强模型（甚至开满 thinking），于是这部分成本既不随小模型变便宜而下降，反而因为”必须用最贵的形态”而成为成本下限被锁死。
它改变了什么判断：没有 Baumol 这把尺，PM 容易把”路由能砍 60% 成本”当成普适结论（见 A05 模型路由与 Mixture-of-models 的对手回应）。有了它，正确判断是：路由降本的天花板由”刚性区占比”决定——一个全是高风险请求的产品（如 AI 法律顾问），可路由空间趋近于零，三角的”质量”顶点被合规和风险钉死，再怎么技术进步也降不动。这条直接限定了 E03 一个 RAG Agent 产品的 unit economics 拆解里”路由能省多少”的上界，也是 §7 failure scenario 的根据。

§7 失效边界（failure scenario）

本节点的判断在以下场景失效，显式标注（呼应总览 §7）：

“三角不可三全”在成本占比极低的场景弱化——若推理成本远小于客单价（低频高价 B2B 工具），三角张力对产品决策几乎无影响，此时为省一点推理成本牺牲质量是捡芝麻丢西瓜，三角视角会误导。
“按场景定位顶点”在请求难度高度同质时退化——若全是同等难度请求，没有路由空间，三角就退回成”选一个固定点”的简单问题，§3 的四档定位失去意义。
inference scaling 的成本判断依赖当前定价结构——当前结论基于”thinking/reasoning token 按 output 价计费”这一已核验前提（Anthropic、OpenAI o 系列均如此〔来源同 §2，以 2026-06·待复核价位〕）；若未来改为 input 价计费或大幅折扣（如某种 reasoning 缓存），“开 thinking 就是烧钱”的结论需重估。

§8 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌：被问”AI 产品怎么平衡成本和体验”，别答”我们会持续优化”。答：“这是一个 size×latency×quality 的不可能三角，我会先定场景档位——实时高质量认贵、批量认慢、高频用路由——再显式声明牺牲哪一维；reasoning 模型我会把 thinking budget 当产品参数按场景设，而不是默认全开。” 一句话显出你算过账、懂物理根因。
选型会：把候选模型放进”约束内质量”测试（你的真实延迟和成本预算下），而非看裸榜；对 reasoning 模型，单独评估 per-task 成本（含 thinking token），别只看分。
复现台：用 R01 最小可运行·Token 成本计算器把 thinking token 单列，算三个档位（实时/批量/深思）的 per-query 成本差，亲手确认”三角的每个顶点值多少钱”；用 R02 中型·模型路由 + 语义缓存降本实验实测路由把请求分散到不同顶点后的降本幅度与质量回退。

§9 与已有节点的关系（不复述事实基础）

对照 c05 - 算力物理定律与 KV Cache（抽象化）：c05 给推理的物理底层（memory-bound、KV Cache 显存公式、Prefill/Decode、投机解码吞吐 2–3×〔来源：c05，已核验〕）；A04 不复述这些公式，而是把它们翻译成 PM 的三角判断——“为什么大模型同时贵又慢""为什么低延迟要加钱”。c05 回答物理，A04 回答取舍。
对照 c07 - 量化 Quantization 与端侧部署（映射）：c07 给”用量化换成本”的物理本质与质量损失门槛；A04 把量化定位成”在三角里用质量换成本/延迟的一种手段”，并指出其质量损失在长程/精确任务上非线性放大（与 A06 端侧与云端成本重构衔接）。
对照 c06 - 架构演进：Dense MoE SSM Hybrid（对话）：c06 讲架构能力取舍；A04 接”架构选择即三角顶点选择”——MoE 用显存（固定成本）换算力（变动成本），是把三角的”成本”顶点拆成两块（见 §1 口径提醒）。
对照 m202 - 工程选型决策矩阵（深化）：A04 是 m202”质量门槛 + 成本预算”两维度的显微镜，把宏观选型矩阵里的两格放大成单次推理的物理三角。
升级 m209 - 推理成本控制手册（补缺）：m209 §2.6 停在”路由/缓存等降本手段清单”；A04 补两块 m209 未展开的——(a) inference scaling / thinking token 单独计费如何把三角扭成四元约束；(b) 用 Baumol 成本病给出”路由降本天花板”的判据。不复述 m209 的具体降本数字（仅在 §4 坑 4 引用其路由 37% 实测值并标注为特定场景值）。

§10 关联节点

核心（必读）

A03 Token Economics 精算 —— thinking token 计费、output/input 价差是三角第四轴的成本基础
A05 模型路由与 Mixture-of-models —— 让异质请求落到三角不同顶点的工程实现
c05 - 算力物理定律与 KV Cache —— 三角张力的物理根因（memory-bound、KV Cache）
c11 - System 2 思维与 Test-Time Compute —— inference scaling 的来源
Test-Time Compute —— 推理时算力换质量的概念卡
c06 - 架构演进：Dense MoE SSM Hybrid —— MoE 把成本顶点拆成固定/变动两块
A07 成本约束反向塑造产品 —— 三角的”延迟/质量/成本”如何倒逼产品形态（判断主轴）

延伸（可选）

c07 - 量化 Quantization 与端侧部署、A06 端侧与云端成本重构 —— 量化作为三角降本手段
m209 - 推理成本控制手册、m202 - 工程选型决策矩阵 —— 升级对照的旧节点
E03 一个 RAG Agent 产品的 unit economics 拆解 —— 三角顶点选择落到真实账单
E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解 —— 质量分层=订阅分层
R01 最小可运行·Token 成本计算器、R02 中型·模型路由 + 语义缓存降本实验 —— 动手算三角顶点的钱
量化、MoE、KV Cache、多模型分层 —— 概念卡
Scaling Laws —— 训练侧 scaling 与 inference scaling 的对照
_成本工程系统化专题·总览、AI PM 知识图谱·总索引

§11 修订日志

R0（2026-06-07，初稿）：按宪章 §4 十一段骨架成稿。核心立场”三角不可三全·按场景定位”+ inference scaling 把三角扭成四元约束（thinking token 第四轴）。判断主轴四坑（既要又要还要 / benchmark 质量≠场景质量 / thinking token 当免费开关 / 单模型硬扛异质分布）均配症状→为什么错→正确做法→真实反例四件套。对手回应两处：小模型乐观派（接受+前沿质量永远贵的边界）、★Baumol 成本病（Rick 未读对手框架，具体展开”质量敏感场景成本刚性区”如何锁死路由降本天花板，与总览 §6/§7 对手清单 #4、failure #2 对齐）。升级对照 c05（物理→取舍翻译）/c07/c06/m202/m209，明确不复述事实。已核验：c05 的 KV Cache 32.8GB、投机解码 2–3×；m209 路由平均成本 37%（均标注来源与场景边界）。
R1（2026-06-07，grounding pass）：WebSearch 核实 thinking/reasoning token 计费口径——Anthropic extended thinking 的 thinking token 按 output 价计费（Claude 3.7 Sonnet output $15/百万 token 含 thinking）、OpenAI o 系列内部 reasoning token 同样按 output 价计费且不可见、单次 3,000–10,000 隐藏 token（来源：platform.claude.com/docs、platform.openai.com/docs/pricing、o3 model 文档）。据此把 §2/§7 原〔待核实〕升级为带来源的接地陈述，volatile 价位仍标〔以 2026-06·待复核〕。遗留待核实：当前各家具体价位数字会漂移，文中只用”按 output 价计费/数量级”等结构性结论，未硬编单价。双链全部使用总览已确认存在的 basename。
2026-06-11 P3.1 接地修复：§3 thinking token 计费段把”Claude 3.7 Sonnet output $15/百万·待复核当前价位”改为版本无关的”现役 Claude Sonnet 档 output $15/百万、此价自 3.7 Sonnet 起跨版本未变”，并标〔截至 2026-06 已核实，volatile 需定期复查〕——经 claude-api 权威定价表复核 $15 仍为现役 Sonnet output 真值。§1/§4 引用的 c05 KV cache 32.8GB 经独立 WebSearch 交叉验证为 Llama-3-70B 100K FP16 真值，承重无误。

A04 推理成本三角·模型大小 延迟 质量

A04 推理成本三角·模型大小 延迟 质量

§0 为什么是”三角”这个框架，而不是”成本曲线”

§1 三角的三条边：每条边的物理/经济根因

§2 inference scaling：三角怎么被扭成四元约束（2025 的格式塔切换）

§3 三角的四个典型定位点（按场景落位，不是按”哪个最好”）

§4 判断主轴：90% 的人在推理三角上会栽的四个坑

坑 1：想在三角里”既要又要还要”，承诺一个不存在的点

坑 2：用”benchmark 质量”代替”场景质量”来定三角顶点

坑 3：把 inference scaling 当”免费加质量的开关”，不算 thinking token 的账

坑 4：用单一模型硬扛全场景，而不是让不同请求落到三角不同顶点

§5 产品 PM 视角补盲：三角之外的三个”看走眼”点

§6 对手框架回应：接受 + 边界

§7 失效边界（failure scenario）

§8 PM 决策启示：面试 / 选型 / 复现三类落地

§9 与已有节点的关系（不复述事实基础）

§10 关联节点

§11 修订日志

A04 推理成本三角·模型大小延迟质量

A04 推理成本三角·模型大小延迟质量