A02 成本对象层级辨析·per-token per-query per-task per-user per-seat
A02 成本对象层级辨析·per-token per-query per-task per-user per-seat
本节点要解决的问题是:当一个 AI 产品的人在说”成本”时,他到底在说哪一层的成本? per-token、per-query、per-task、per-user、per-seat 是五个不同的成本对象(cost object)层级,单位不同、口径不同、对应的决策不同。绝大多数关于 AI 产品盈利的争论之所以鸡同鸭讲,是因为吵架双方根本站在不同的计量层级上——工程拿 per-token 单价说”很便宜了”,财务拿 per-user 月成本说”要亏死了”,两个人都对,但他们说的不是同一笔账。本节点提供一张五层换算矩阵,以及一条贯穿全节点的判断主轴:层级错配是 AI 产品成本判断里最高发的事故——拿低层级的便宜,去回答高层级的盈利问题。
这是管理会计里”成本对象”概念在 AI 产品上的落地。成本对象是”你想单独度量成本的那个东西”——它可以是一个 token、一次请求、一个任务、一个用户、一个席位。换个成本对象,同一笔钱的”单位成本”数字可以差几个数量级,而只有最高那层(per-user / per-seat)才直接决定毛利。
§0 为什么是”五层成本对象”这个框架,而不是”单价 vs 总成本”
读者脑子里默认的框架往往是二分的:“单位成本”和”总成本”——单价乘以量等于总账。这个框架在 SaaS 里够用,因为 SaaS 的边际成本≈0,单价这一层几乎可以忽略,关注点直接跳到 per-seat 订阅价。但在 AI 产品里这个二分框架是有害的简化,因为它把中间三层(query / task / user)压没了,而真正的成本错配恰恰发生在这三层的换算缝隙里。
为什么必须是五层而不是两层?因为这五层之间的换算系数全都不是常数,且每一跳都引入一个新的、产品侧才知道的变量:
flowchart LR
T["per-token<br/>(工程/计费原子)"] -->|×单次token数| Q["per-query<br/>(一次请求)"]
Q -->|×单任务请求数<br/>(Agent步数/重试/检索)| K["per-task<br/>(一个完成的任务)"]
K -->|×人均任务数<br/>(使用强度/留存)| U["per-user<br/>(一个用户的月成本)"]
U -->|×席位活跃率<br/>(买了但不用)| S["per-seat<br/>(一个付费席位)"]
style T fill:#e3f2fd
style U fill:#fff3cd
style S fill:#ffe0e0
每往上跳一层,乘的都不是一个工程常数,而是一个产品-行为变量:token 数取决于上下文设计,请求数取决于 Agent 架构和重试策略,人均任务数取决于使用强度和留存,席位活跃率取决于销售模式(企业批量采购 vs 个人订阅)。五层框架的价值就在于:它把”为什么 per-token 很便宜但 per-user 在亏钱”这个谜,拆成了四个可以分别诊断、分别归因的换算跳跃。 二分框架做不到这一点——它只会让你在”单价明明很低”和”账单明明很高”之间反复困惑。
§1 五层成本对象逐层定义与单位
| 层级 | 成本对象 | 典型单位 | 谁在用这个口径 | 主要决策 |
|---|---|---|---|---|
| per-token | 一个 token(输入/输出分开) | 美元 / 百万 token(MTok) | 工程、API 计费、模型选型 | 选哪个模型、要不要量化/缓存 |
| per-query | 一次 API 请求 / 一轮对话 | 美元 / 次 | 工程、容量规划 | 单次请求贵不贵、要不要限制上下文长度 |
| per-task | 一个对用户有意义的完成任务(可能含多次请求、检索、重试、Agent 多步) | 美元 / 任务 | 产品、Agent 设计 | 这个功能值不值得做成 Agent、深度推理划不划算 |
| per-user | 一个活跃用户一个计费周期(月)的总推理成本 | 美元 / 用户·月(COGS 的核心) | 产品、定价、财务 | 免费额度怎么定、订阅价能不能覆盖、毛利多少 |
| per-seat | 一个已售出的席位(B2B:买了的人不等于用的人) | 美元 / 席位·月 | 商业、定价、销售 | 企业版定价、毛利率、能不能规模化 |
[!note] per-user 与 per-seat 的关键区别(B2B 的隐藏红利) 在 C 端订阅里 per-user ≈ per-seat(买的人就是用的人)。但在 B2B 里两者可以差几倍:企业批量买 500 个席位,月活可能只有 30%。未激活席位的边际推理成本≈0,但订阅费照收——这是 B2B AI 产品比 C 端订阅”看起来”毛利更健康的结构性原因,也是为什么同一个产品 C 端可能亏、企业版却赚。把 C 端的 per-user 直觉套到 B2B 定价上,会严重低估企业版的真实毛利空间。
§2 五层换算矩阵(核心交付物)
下表是本节点的核心工具:从任意一层换算到相邻层,要乘哪个系数、这个系数由什么决定、为什么它不是常数。把这张表打印出来贴在定价会的墙上——每次有人报一个成本数字,先问”这是哪一层、要换到 per-user 还得乘哪几个我们其实没量过的系数”。
| 换算跳跃 | 乘以的系数 | 系数由什么决定(产品侧变量) | 为什么不是常数 / 高发陷阱 |
|---|---|---|---|
| token → query | 单次请求的 token 数(input + output,含 KV/缓存折扣) | 上下文设计:system prompt 长度、历史轮数、RAG 注入的检索块数、output 长度 | RAG/长上下文让单次 token 数膨胀 10–100×;output token 通常比 input 贵数倍(见 A03 Token Economics 精算),按 input 估会严重低估 |
| query → task | 完成一个任务的请求数 | Agent 步数、工具调用轮数、重试次数、检索召回轮数、reasoning/thinking token | 单轮对话 ≈1 query;一个多步 Agent 任务可能 5–50 query(每步一次推理 + 失败重试)。这是 per-token 直觉死得最惨的一跳(见 E03 一个 RAG Agent 产品的 unit economics 拆解) |
| task → user | 人均月任务数 | 使用强度、留存曲线、重度用户长尾(power-law 分布) | 不是平均数能代表的——10% 的重度用户可能消耗 70%+ 的 token;用算术平均估 per-user 会被长尾彻底带偏 |
| user → seat | 1 / 席位活跃率 | 销售模式(个人订阅 vs 企业批量)、激活率、座位闲置 | C 端 ≈1;B2B 可能 0.2–0.5(买了不用)。未激活席位是利润,不是成本 |
[!warning] 这张矩阵的边界 矩阵给的是换算的结构和方向,不是可照搬的数值。每个系数都是产品特异的、会随时间漂移的、且很多在产品上线前是默会估计(留存、人均强度、激活率都是猜的)。所以从 per-token 推 per-user 永远要做敏感性分析而非单点估计——这是 Polanyi 默会知识与提示工程的认识论张力 在成本上的回响:盈亏平衡点算到小数点后两位是认识论幻觉。
§3 一个贯穿示例:同一笔钱在五层各是多少
为了让换算具象,做一次示意计算(first-order,数值标〔示意〕,结构真实、绝对值仅用于说明层级差)。假设一个 RAG 问答产品:
- per-token:用某中端模型(如现役 Claude Sonnet 一档),input 约 $3/MTok、output 约 $15/MTok〔截至 2026-06 已核实,现役 Claude Sonnet 档 $3/$15 per MTok,来源 platform.claude.com pricing;单价 volatile 需定期复查〕——单看这一层,“便宜得不像话”。
- per-query:一次问答塞进 8K input(system + 检索块 + 历史)+ 1K output ≈ 8×$3/1000 + 1×$15/1000 ≈ $0.039/次〔示意〕。仍然很便宜。
- per-task:一个”研究型”任务触发 1 次 query 分解 + 3 轮检索重排 + 1 次综合 + 偶发 1 次重试 ≈ 5 query ≈ $0.20/任务〔示意〕。开始有感觉了。
- per-user:一个活跃用户每月做 200 个任务 ≈ $40/用户·月〔示意〕。如果订阅价是 $20/月,毛利已经是负的——而 per-token 那层还在喊”便宜”。
- per-seat:若是 B2B,企业买 100 席、活跃率 40%,分摊到席位的成本 = $40 × 0.4 = $16/席位·月〔示意〕,订阅 $30/席位则毛利转正。
[!note] 这个示例要说明的不是数字,是落差 从 per-token 的”便宜得不像话”到 per-user 的”在亏钱”,中间只隔了四次乘法,每次都乘了一个产品侧才知道的变量。任何只在 per-token 层成立的”我们很便宜”的结论,都还没有回答”我们赚不赚钱”。 volatile 的具体单价以 A03 Token Economics 精算 和 R01 最小可运行·Token 成本计算器 为准,本节点只负责换算结构。
§4 判断主轴:层级错配——五个最高发的成本事故
这是本节点的命门。下面五个错配每一个都在面试、评审会、定价会上真实高发,每个配齐 症状 → 为什么会错 → 正确做法 → 真实反例 四件套。
错配一:拿 per-token 单价谈 per-user 盈利(本节点的核心病)
- 症状:评审会上工程说”GPT-4o mini 才几毛钱一百万 token,成本完全不是问题”,于是 PM 把免费额度定得很慷慨。
- 为什么会错:per-token 跳到 per-user 要连乘四个系数(单次 token 数 × 单任务请求数 × 人均任务数 × 1/活跃率),每个都 >1 且产品特异。只看最底层等于把后面四次放大全忽略了。
- 正确做法:任何盈利/定价结论必须在 per-user(C 端)或 per-seat(B2B) 层做,per-token 只能用来回答”选哪个模型”。报价前先沿换算矩阵把四个系数填上(哪怕是带区间的估计)。
- 真实反例:2023 年多家 AI 创业公司用”token 很便宜”的直觉定了不限量或大额度的订阅,重度用户的人均调用量把 per-user 成本拉到远超订阅价,被迫事后加 rate limit / 改用量计费。OpenAI、Anthropic 的对话产品都设了消息频率上限和 context 上限——这些限制正是 per-user 成本倒逼的产品决策(见 E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解 与判断主轴 A07 成本约束反向塑造产品)。
错配二:拿 per-query 估 per-task(无视 Agent 的请求放大)
- 症状:“一次请求才 4 分钱”被直接用来估一个多步 Agent 功能的成本。
- 为什么会错:单轮对话 query ≈ task,但 Agent 任务的 query/task 系数是 5–50:每个工具调用、每轮检索、每次失败重试都是一次独立计费的推理。
- 正确做法:对 Agent/RAG 类功能,成本对象必须是 per-task,并显式数清”一个任务平均触发几次推理”。
- 真实反例:一个多步 Agent 的 per-query 成本是单次对话的数倍到数十倍——这正是 0413 总览指出”0411 Agent 专题没算的那笔账”。用 per-query 估 Agent 成本会低估一个数量级(详见 E03 一个 RAG Agent 产品的 unit economics 拆解)。
错配三:用算术平均的 per-user 做定价(无视长尾)
- 症状:“平均每个用户每月才花我们 $3,订阅 $10 稳赚。”
- 为什么会错:AI 产品的用量是重尾分布(power-law),10% 的重度用户可能消耗 70%+ 的 token。算术平均被长尾拉低或拉高都失真,且重度用户恰恰是最不愿流失的付费意愿者。
- 正确做法:per-user 成本要看分布而非均值——至少看 P50 / P90 / P99,用 P90+ 用户的成本去校验”会不会被一小撮人吃穷”。定价/额度按分位数设计(如超过某用量转用量计费)。
- 真实反例:Anthropic、OpenAI 对重度用户设的速率与额度限制,本质是在切重尾——不切的话,少数 power user 的成本能把整个用户群的毛利吃光。
错配四:C 端把 per-user 当 per-seat(B2B 错配,反向)
- 症状:拿 C 端”每个活跃用户成本 $40”的数字,去推断企业版”每席位成本也是 $40”,于是把企业版定价定得过高、丢单。
- 为什么会错:B2B 席位有激活率,未激活席位的边际推理成本≈0。per-seat = per-user × 活跃率,活跃率常在 0.2–0.5。
- 正确做法:B2B 定价的成本对象是 per-seat,必须乘上激活率折扣;同时警惕”激活率会随产品粘性上升”这个动态变量。
- 真实反例:企业协作类 AI 工具普遍按席位订阅,靠未激活席位摊薄成本——这是 B2B SaaS 把”买了不用”变成结构性利润的老套路,在 AI 产品上同样成立。
错配五:把固定成本(per-deployment)硬摊成 per-token(自建/端侧的错配)
- 症状:自建推理或端侧部署后,把 GPU 月租/折旧除以当月 token 数,得到一个”per-token 成本”,再拿去跟 API 单价比。
- 为什么会错:自建成本主体是固定成本(GPU 折旧/常驻显存/运维/闲置),不随 token 量线性变化。低利用率时算出的 per-token 高得吓人,高利用率时又低得诱人——这个”per-token”是利用率的函数,不是稳定单价。
- 正确做法:固定成本主导的部署要用 per-deployment + 利用率 来核算,盈亏看”打满到什么 QPS 才比 API 便宜”,而非比单价(见 A06 端侧与云端成本重构 与 c05 - 算力物理定律与 KV Cache 的并发上限)。
- 真实反例:自建 GPU 集群在低利用率时单位成本远高于 API(闲置烧钱),只有打满才省——许多”自建省钱”的论断只算了满载理想态,忽略了闲置(TCO 视角)。
§5 产品 PM 视角补盲:计量层级不只是会计,是产品语言
工程 PM 容易把这五层当纯财务换算。但成本对象的选择直接塑造产品形态与用户心智:
- 计费单位即用户心智模型。按 token 计费(API 产品)逼用户去理解”为什么我的长对话更贵”,按 seat 计费(企业版)让用户感觉”买断了不心疼地用”——后者鼓励重度使用,反而推高你的真实 per-user 成本。你选的计费单位,会反过来改变用户的用量行为,进而改变你要承担的成本层级。
- 额度的呈现层级要和用户能感知的层级对齐。给 C 端用户展示”你还剩 X 个 token”是糟糕的产品(用户无法换算成”还能聊几次”);展示”今天还能问 X 次”(per-query/per-task 层)才符合心智。计量内部可以是 per-token,呈现必须翻译到用户能感知的层级。
- 合规边界藏在 per-task 层。一个任务若跨了端侧(免费、隐私安全)与云端(计费、数据出境)两段,per-task 成本和合规风险是耦合的——把任务整体当一个成本对象时,别忘了它内部可能横跨两套数据治理边界(见 A06 端侧与云端成本重构)。
§6 对手框架回应:单一成本对象论 vs 五层论
业界反方立场(FinOps 简化派 / 部分财务):“别搞这么复杂,AI 成本归根到底就是一个 COGS 数字除以用户数,盯住 per-user gross margin 就够了,中间那几层是工程细节,不该进财务模型。”
接受的部分:他们是对的——最终决策层确实只有 per-user / per-seat 那一层,毛利就是在那层算的,下面四层不直接进损益表。如果只是要回答”这个月毛利多少”,确实一个 per-user 数字就够。盯住毛利、拒绝过度工程化的成本拆解,这个纪律本身是对的。
坚持的边界:但当你要预测毛利、诊断毛利为什么恶化、或在产品上线前估一个还没有真实用量的功能的成本时,单一 per-user 数字是个黑箱——它会变、却说不清为什么变。这时必须打开五层换算,因为毛利恶化的原因总是发生在某一个具体的换算跳跃里(是上下文变长了?Agent 步数变多了?重度用户占比上升了?激活率变了?)。单层论适合事后记账,五层论适合事前预测和事中归因。 这正好对应 S03 FinOps for AI·成本可观测与归因全景 里”成本归因维度的选择不是中立的”——你按哪个成本对象归因,决定了你能看见哪类成本失控。Strathern 的审计社会学在此提醒:选择 per-user 还是 per-task 作为归因主单位,本身就在决定”哪个团队为账单负责”。
§7 跨域呼应:成本对象选择即权力分配(Strathern 审计社会学)
[!note] 跨域调度:Marilyn Strathern《Audit Cultures》——度量单位的选择不是中立的 人类学家 Strathern 指出,审计与度量从来不是对既存现实的中立测量,度量单位的选择本身在重构被度量的对象、并重新分配责任。把这把尺架到成本对象上:你选 per-token 作为主计量单位,成本失控的”责任”就落在工程(选错模型);你选 per-task,责任落在产品(功能设计太重);你选 per-user,责任落在增长(拉来了不付费的重度白嫖用户)。没有一个”客观正确”的成本对象——每种选择都在悄悄回答”这是谁的锅”。
这个框架具体改变了什么判断?它让我对”我们应该用哪个成本指标”这个看似纯技术的问题产生警觉:当一个组织默认用 per-user COGS 作为唯一成本 KPI 时,它结构性地看不见 per-task 层的浪费(Agent 步数冗余、重试过多),因为这些被平均进了 per-user 黑箱。反过来,一个只盯 per-token 单价的工程团队,会结构性地看不见 per-user 的亏损。所以成本治理的第一步不是”算出成本”,而是有意识地同时维护多个成本对象的视图,并意识到每个视图都在替某个团队开脱或定罪。这也是为什么 S03 FinOps for AI·成本可观测与归因全景 主张按功能/用户/租户多维归因,而不是认定某一维是”真实成本”。
§8 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试桌:被问”你怎么算一个 AI 产品的成本”,不要张口就报 per-token 单价(这是初级信号)。正确回法:“要看在哪个成本对象层——per-token 决定选型,per-user 决定毛利,中间隔着四次换算。“然后能口述换算矩阵的四个系数。这一句话立刻把你和”只会查 API 价格表”的人区分开。
- 选型/评审会:每当有人报成本数字,先做”层级归位”——问清这是哪一层、要换到决策需要的层(通常是 per-user/per-seat)还得乘哪几个系数、这些系数我们量过没有。这能当场拆穿”per-token 很便宜所以成本不是问题”这类最常见的评审会话术。
- 复现台:用 R01 最小可运行·Token 成本计算器 把 per-token 算到 per-query,用 R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡 把 per-query 一路推到 per-user/per-seat 并做敏感性分析。亲手跑一遍五层换算,比记住任何单价都重要。
§9 与已有节点的关系
- 对照 A01 成本概念史与口径辨析:A01 辨的是”成本”这个词的口径(token 计费 / 推理成本 / TCO / unit economics 四种语义);A02 辨的是同一笔成本的计量层级(成本对象)。口径回答”算的是哪种成本”,层级回答”以什么为单位算”——两者正交,是概念辨析模块的一横一纵。纠偏:A01 指出 COGS/CAC/LTV 在 AI 与 SaaS 的语义差异,A02 补上”为什么这个差异在层级换算时会被放大”(SaaS 边际成本≈0 让中间三层坍缩,AI 不行)。
- 对照 A03 Token Economics 精算:A03 深耕 per-token 这一层的内部结构(input/output 价差、缓存折扣、thinking token);A02 不复述这些,只把 A03 当作 token→query 那一跳的系数来源。分工:A03 管”一个 token 到底多少钱”,A02 管”这个 token 价怎么换算成毛利”。
- 对照 m209 - 推理成本控制手册:m209 §2.6 给的成本估算停在 per-query/per-request 层(如 $1,620/百万请求这类口径);A02 升高抽象层,指出 m209 的”百万请求”成本还要再乘人均请求数和活跃率才到毛利,把 m209 的工程估算接进商业账。不复述 m209 的具体降本数字。
- 支撑 E03 一个 RAG Agent 产品的 unit economics 拆解 与 A07 成本约束反向塑造产品:A02 是这两个节点的方法论前置——E03 是五层换算的一次完整真实演算,A07 的”产品限制是成本影子”则建立在”per-user 成本倒逼 rate limit”这条具体换算链上。
§10 关联节点
核心(必读)
- A01 成本概念史与口径辨析 —— 口径之辨,与本节点的层级之辨正交互补
- A03 Token Economics 精算 —— token→query 换算系数的来源
- E03 一个 RAG Agent 产品的 unit economics 拆解 —— 五层换算的完整真实演算
- A07 成本约束反向塑造产品 —— per-user 成本倒逼产品限制的判断主轴
- R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡 —— 把换算落成可填的毛利表
- m209 - 推理成本控制手册 —— 被升级的工程估算层
延伸(可选)
- A04 推理成本三角·模型大小 延迟 质量 —— per-task 系数受推理深度影响
- A05 模型路由与 Mixture-of-models —— 路由如何改变 query→task 系数
- A06 端侧与云端成本重构 —— 错配五(固定成本 vs per-token)的展开
- S01 AI 产品成本结构分层剖面 —— 成本分层堆栈,本节点的架构对应物
- S03 FinOps for AI·成本可观测与归因全景 —— 多维成本归因,呼应 §7 权力分配
- E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解 —— per-user 倒逼限制的真实反例
- R01 最小可运行·Token 成本计算器 —— 动手把 token 算到 query
- c05 - 算力物理定律与 KV Cache —— 并发上限,错配五的物理基础
- Polanyi 默会知识与提示工程的认识论张力 —— 换算系数的默会性与敏感性分析
- 多模型分层 —— 影响 task 层成本的路由策略
- Prompt Caching —— 影响 token→query 系数的缓存折扣
- _成本工程系统化专题·总览 —— 本专题 MOC
- AI PM 知识图谱·总索引 —— 全库总入口
§11 修订日志
- R0(2026-06-07,初稿):按宪章 §4 十一段骨架与总览 §3/§4 蓝图写成 comparison 型节点。核心交付物为 §2 五层换算矩阵(token→query→task→user→seat 四跳,每跳标系数、产品侧变量、不是常数的原因与陷阱);§3 一次贯穿五层的示意计算(数值标〔示意〕,结构真实);§4 判断主轴给五个高发层级错配,每个配齐症状/为什么错/正确做法/真实反例四件套(核心错配一 = per-token 谈 per-user 盈利);§6 对手回应(FinOps 单层论”接受+边界”);§7 跨域呼应 Strathern 审计社会学(成本对象选择即权力分配,非装饰、具体改变”该用哪个成本 KPI”的判断);§9 与 A01/A03/m209/E03/A07 显式升级对照(不复述)。已核实(2026-06-07 WebSearch):§3 示意所用中端模型单价 input $3 / output $15 per MTok 已核实为 Claude Sonnet 4.6 当前定价(来源 platform.claude.com/docs pricing、tldl.io、pricepertoken.com,多源一致),标日期口径〔以2026-06定价为准〕;GPT-4o mini $0.15/$0.60 per MTok 亦核实(openai.com/api/pricing、devtk.ai),用于错配一的”很便宜”直觉佐证。具体最终单价一律指向 A03 Token Economics 精算/R01 最小可运行·Token 成本计算器,本节点不硬编最终单价,§3 绝对值仍标〔示意〕(用于说明层级落差,非精算)。双链:均取总览已核验的真实 basename;专题内 A0x/E0x/R0x/S0x 待落稿随专题 resolve。
- 2026-06-11 P3.1 接地修复:§2 per-token 行的”Claude Sonnet 4.6 $3/$15·以2026-06定价为准”改为版本无关的”现役 Claude Sonnet 档 $3/$15”,并标〔截至 2026-06 已核实,volatile 需定期复查〕——经 claude-api 权威定价表复核 $3/$15 仍为现役 Sonnet 真值(4.6 版本号已被更新版取代但价格未变,去版本号抗过时)。§3 per-query/task/user/seat 的 $0.039/$0.20/$40/$16 等下游推算均已标〔示意〕、依赖此单价,单价确证后示意链成立。GPT-4o mini $0.15/$0.60 复核仍准。