A01 成本概念史与口径辨析

当一个 PM、一个工程、一个 CFO 在同一场会上说”我们的成本是多少”，他们说的几乎从来不是同一件事。本节点要解决的问题是：“成本”在 AI 产品里至少有四种互不通约的口径（token 计费 / 推理成本 / TCO / unit economics），把它们当成一个数来用，是 AI PM 最常见、也最致命的误判源头。本节的视角是口径考古学 + 微观经济学成本概念——先把”成本”这个被磨平的词拆回它的概念史，再用经济学的成本分类法（固定/变动、显性/隐性、会计/机会）给四口径做坐标定位，最后辨析 COGS·CAC·LTV·gross margin 在 AI 产品与传统 SaaS 之间的系统性差异。

§0 为什么是”四口径之辨”这个框架，而不是”成本清单”

读者脑中的默认框架是把”降本”理解成一张手段清单——缓存、路由、量化、batching，挨个上。m209 - 推理成本控制手册就是这张清单的优秀版本。但清单框架有一个前置漏洞：它默认你已经知道自己在降哪笔账。 现实是，绝大多数关于成本的争论根本不是”该用哪个手段”，而是”我们说的成本是同一个东西吗”——一方在说 API 账单（token 计费口径），另一方在说”那这个产品到底赚不赚钱”（unit economics 口径），两人吵了一小时才发现根本不在一个坐标系里。

所以本节点不开手段清单（那是 S02 降本手段流派对照矩阵的事），而是做一次口径级辨析：先建立”成本”这个词的四个互不通约的指称，挡住”成本=API 单价”这个把多维概念压成一维标量的默认错误框架。这是整个 0413 专题的”零层”——口径不统一，后面所有的精算（A03 Token Economics 精算）、对象层级（A02 成本对象层级辨析·per-token per-query per-task per-user per-seat）、毛利测算（R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡）都建在流沙上。

[!note] 一句话区分 A01 和 A02 A01 辨的是成本的”种类”（token 计费 / 推理 / TCO / unit economics 是四种不同性质的成本概念）；A02 成本对象层级辨析·per-token per-query per-task per-user per-seat 辨的是成本的”计量单位”（同一笔推理成本，按 per-token、per-query、per-user 算出来数量级不同）。先读 A01 定种类，再读 A02 定单位。

§1 四口径的考古与坐标定位

把四个口径放进微观经济学的成本坐标系（会计成本 vs 经济成本、显性 vs 隐性、固定 vs 变动），它们的差异立刻清晰：

口径	它指的是	经济学性质	谁在用	典型陷阱
① Token 计费	API 按 input/output token 收的钱（如 $X / 百万 token）	会计成本 · 显性 · 纯变动成本	工程、运营	把单价当成本全貌，忽略它只是”账单”不是”成本结构”
② 推理成本	完成一次推理实际消耗的算力/显存/电力（自建时）或被定价覆盖的底层成本	经济成本 · 含隐性 · 固定（GPU 折旧/常驻显存）+ 变动（算力）	算法、基础设施	把”API 单价”等同于”推理成本”，忽略厂商的毛利/补贴/规模摊薄
③ TCO（总拥有成本）	把一个方案养活所需的全部成本：推理 + 工程适配 + 运维 + 监控 + 质量回退 + 迁移	经济成本 · 重隐性 · 固定为主	架构、采购、CTO	只算显性那一项（“端侧省了 API 费”），漏掉设备/适配/维护的隐性成本
④ Unit Economics	把成本接回商业账：per-user COGS、CAC、LTV、gross margin、盈亏平衡点	经济成本 + 收入侧	PM、增长、CFO、投资人	拿 per-token 单价直接谈盈利，跳过转化率/调用频次/留存

这四个口径是逐层包裹的，不是并列的。 Token 计费 ⊂ 推理成本 ⊂ TCO ⊂ Unit Economics——后者把前者作为一个分项吞进去，再补上前者看不见的维度。一个只懂 token 计费的人，永远算不清 TCO；一个只懂 TCO 的人，回答不了”这个产品该定价多少”。

概念史的一个关键断点：边际成本从”≈0”变回”线性”

微观经济学里，软件曾经是”边际成本递减至近零”的典范产业——多服务一个用户的额外成本几乎为零，这是 SaaS 高毛利神话的根基（典型订阅业务毛利率中位数约 75–81%、头部超 80%；耐人寻味的是，AI 内核的 SaaS 公司因算力成本，毛利已普遍比纯 SaaS 低约 5 个百分点〔CloudZero / Benchmarkit 2025 SaaS 基准·以 2026-06 数据为据〕）。AI 产品打破了这个神话。 每多一次推理调用都要真金白银地烧 token/算力，变动成本随用量近似线性增长。这不是量变是质变：AI 产品的成本曲线从”软件”退回到了”制造业/服务业”——更像每多卖一辆车要多耗一份钢材，而不是多卖一份 Excel license 几乎零成本。这个断点是后面所有口径差异的根因（详见 §3）。

§2 COGS·CAC·LTV·gross margin 在 AI 产品 vs 传统 SaaS

这四个 unit economics 核心概念在 AI 产品里都发生了语义偏移。JD 和产品白皮书里混着用，但含义系统性不同：

指标	传统 SaaS 的含义	AI 产品里的偏移	偏移的后果
COGS（销货成本）	主要是托管/带宽/客服，边际成本≈0，占收入比例低	推理成本（token/算力）成为 COGS 主项，随用量线性增长	gross margin 不再是固定高位，而是随用户行为浮动（重度用户可能负毛利）
CAC（获客成本）	销售/市场费用	要把”免费额度/试用推理成本”计入 CAC——每个未转化用户烧掉的 token 是纯获客支出	免费策略不再是”零边际成本拉新”，而是真金白银的现金流出，定免费额度 = 定 CAC 上限
LTV（生命周期价值）	留存 × 客单价，成本侧稳定	留存高 ≠ LTV 高——重度使用的高留存用户可能拉低 LTV（成本超过他付的钱）	“用户越活跃越好”的 SaaS 直觉失效，需按”贡献毛利”而非”活跃度”分层
Gross Margin（毛利率）	70–85%，相对刚性，是估值锚	随模型选型、缓存命中率、用户结构剧烈波动，可能从 80% 掉到负数	毛利成为产品设计变量而非会计结果——context 上限、rate limit 都是在守毛利线

[!warning] 一个反直觉但要命的结论在传统 SaaS，留存是 LTV 的同义词——留住用户就是赚钱。在 AI 产品，留存和毛利可能反向：一个每天狂用的高留存用户，若订阅费固定而推理成本随用量涨，他越活跃你越亏。这正是各家”无限使用”订阅纷纷加 rate limit / 降级到便宜模型的根因（见 E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解）。SaaS 的”DAU 越高越好”在 AI 产品里要打一个成本侧的问号。

§3 判断主轴：口径错配导致成本误判（症状 → 为什么错 → 正确做法 → 真实反例）

这是本节点的命门——90% 的成本误判，根子都在”用错了口径”。 四个最常见的错配：

错配一：拿 token 单价当产品成本谈盈利

症状：“我们用的模型才 $X/百万 token，这么便宜，肯定赚钱。”
为什么会错：token 单价是口径①（纯变动、显性、per-token），盈利问的是口径④（per-user、含 CAC/留存）。中间隔着”人均月调用量 × 转化率 × (1 − 免费用户占比)“三道乘除，单价低不代表 per-user COGS 低。一个人均每月调用 5000 次的产品，单价再低也能把毛利吃穿。
正确做法：永远把口径①经过 A02 成本对象层级辨析·per-token per-query per-task per-user per-seat 的换算链升到口径④再下结论——per-token → per-query → per-user/月 → 减 CAC → 看毛利。
真实反例：2023–2024 一批”AI 套壳”应用，按 API 单价测算毛利乐观，上线后发现重度免费用户把推理成本烧穿，被迫紧急加 rate limit 或关停免费层——经典的”用口径①定价、被口径④打脸”。这类故事在 2024 年的独立开发者社区反复出现〔以 2026-06 的公开复盘讨论为据·具体公司名待核实〕。

错配二：把”API 单价”等同于”推理成本”

症状：“自建推理太贵，用 API 更便宜”——或反过来”API 有溢价，自建一定省钱”。
为什么会错：API 单价（口径①）是厂商定价，里面含厂商毛利、也含规模摊薄与可能的获客补贴；真实推理成本（口径②）含 GPU 折旧、常驻显存、闲置率。两者的关系不是固定倍数：在高利用率/规模化下自建可能更便宜，在低利用率下 API 的”按用量付费”反而省掉了固定成本。
正确做法：自建 vs API 的比较必须升到 TCO（口径③）并代入利用率假设，而不是比单价。算清盈亏利用率拐点（GPU 折旧摊到多少调用量才低于 API 单价）。
真实反例：很多团队看 API 有”溢价”就冲动自建，结果 GPU 利用率长期不到 30%，固定成本摊下来远贵于 API——把口径①的”溢价”当成了口径②/③的”可省成本”。

错配三：用 API 单价比”端侧 vs 云端”，漏算 TCO

症状：“端侧推理不要钱（不付 API 费），所以端侧一定降本。”
为什么会错：端侧省的是口径①（API 变动成本），但加上了口径③才看得见的隐性成本——模型适配/量化工程、设备端质量回退、多端维护、用户设备发热/耗电的体验成本。“省了 API 费”只是 TCO 里的一项。
正确做法：端侧 vs 云端必须在 TCO 口径下比，把适配/维护/质量损失折算进去（详见 A06 端侧与云端成本重构与 E02 Apple Intelligence 与端侧推理成本剖解）。
真实反例：Apple Intelligence 选择端侧 + 私有云分流而非纯端侧，正是因为纯端侧的 TCO（设备能力门槛 + 质量回退）在复杂任务上不划算——这是用 TCO 口径而非 API 单价口径做的决策。

错配四：把 SaaS 的”边际成本≈0、毛利刚性”直觉套到 AI

症状：“我们是软件，毛利当然 80%，用户越多越赚。”
为什么会错：这是用旧的软件成本曲线（口径④的 SaaS 版）套 AI。AI 的 COGS 随用量线性增长，毛利是浮动的产品变量，DAU 高未必毛利高。
正确做法：把毛利当成需要主动设计和守护的变量——用 context 上限、rate limit、模型分层、缓存来把 per-user COGS 压在定价线以下（这正是 A07 成本约束反向塑造产品的主轴）。
真实反例：早期”无限对话""无限额度”的 AI 订阅产品几乎无一例外地引入了限制或分层，因为按 SaaS 直觉做的”无限”定价在 AI 成本曲线下不可持续。

§4 产品 PM 视角补盲

工程视角容易把”成本”窄化为口径①②（怎么把单次推理做便宜）。PM 必须补三个走样点：

用户心理模型 × 口径错配：用户感知的”贵”是订阅价（口径④的价格侧），不是 token 数。把”按量计费”直接暴露给消费者（透传口径①）几乎总会失败——用户讨厌”用一次心疼一次”的计价焦虑。这是为什么 C 端几乎都包月（把变动成本风险吞进毛利），B2B/API 才按量。口径选择本身是产品决策。
商业模式 × LTV 偏移：传统 SaaS 增长团队的 KPI 是 DAU/留存；AI 产品若照搬，会激励出”高活跃但负毛利”的用户结构。增长指标必须从”活跃度”改成”贡献毛利”，否则增长越猛亏得越快。
合规/采购 × TCO 话语权：企业采购讲 TCO（口径③），不讲 token 单价。PM 在 B2B 场景报价时若只谈”我们 API 比对手便宜”，会被采购用 TCO（含集成/迁移/合规审计成本）问到哑口——锁定成本、数据驻留合规成本都在 TCO 里。

§5 对手框架回应：接受 + 边界

业界主流反方立场：“等模型降价就行，口径辨析是过度设计——token 价格在指数级下降，迟早便宜到可以忽略，PM 不必为成本口径较真。“（这是 token 价格外推乐观主义，2025–2026 在很多产品会上是默认共识。）

接受它对的部分：token 价格确实在以惊人速度下降——前沿模型的输出 token 均价自 2023-03 已下降约 94.5%（约一个数量级），而”达到同等质量所需的价格”下降更猛（同质量档位常见 50–200x，因任务而异）〔Epoch AI / deeplearning.ai / TokenCost 等多源·以 2026-06 公开定价对比为据·完整曲线与年份详见 G01 推理成本代际谱系总图〕。在很多轻量场景，成本占比确实已低到不构成约束——此时强行做精细口径核算是过度工程，这一点对手是对的。
但本专题坚持的边界：第一，Jevons 悖论——单位成本下降会刺激调用量、上下文长度、推理深度（reasoning token）暴涨，总账单常不降反升，“等便宜”等到的是更复杂的成本结构而非成本消失。第二，Baumol 成本病——质量敏感场景（医疗/法律/安全审核）不能用便宜模型兜底，这部分成本不随技术进步下降，是成本刚性区，口径辨析在这里恰恰最值钱。第三，降价改变的是口径①的数值，不改变口径②③④的存在——TCO 里的工程/运维成本、unit economics 里的 CAC，跟 token 单价无关，永远需要单独核算。所以口径辨析不是”等降价”能替代的，它在不同口径上各有不可消解的成本。

[!note] 一个未被充分讨论的对手框架（破 echo chamber） 路径依赖 / 锁定（Paul David 1985 “QWERTY”、Brian Arthur 收益递增） 提供了一个 Rick 较少调度的反问：为什么不一开始就按最省 token 单价的方案选型？因为口径①的”便宜”可能制造口径③的”锁定成本”——早期为省单价绑定的便宜模型/私有 harness/特定厂商，会形成数据与工程锁定，迁移成本随时间上升。最优口径不是当下 token 单价最低，而是 TCO（含未来迁移成本）最低。这逼问了本专题自己也容易犯的”当下单价最优=最优”的偏见。

§6 跨域呼应：微观经济学成本概念是这套口径辨析的母体

本节点调度的核心跨域资源是微观经济学的成本分类法，它不是装饰，而是直接重塑了判断：

会计成本 vs 经济成本：token 计费（口径①）是会计成本——账面上实际付出去的钱；而推理成本（口径②）和 TCO（口径③）包含机会成本与隐性成本（自建占用的工程师时间、GPU 闲置的机会成本、质量回退导致的用户流失）。AI PM 最常犯的错就是只算会计成本、漏算经济成本。经济学告诉我们：决策应基于经济成本，核算可以用会计成本——这正是为什么”API 单价便宜”不等于”该用 API”。
固定成本 vs 变动成本：这套区分直接解释了”自建 vs API”的拐点——自建是高固定（GPU 折旧）低变动，API 是零固定纯变动，盈亏点取决于利用率。也解释了 MoE 的成本悖论（A04 推理成本三角·模型大小延迟质量）：MoE 用常驻显存（固定成本）换激活算力（变动成本），对小规模部署反而更贵。
边际成本与定价：经济学的”价格应覆盖边际成本”在 SaaS 时代近乎失效（边际成本≈0，定价靠价值锚定），在 AI 产品时代重新生效——AI 的边际成本（每次推理）显著为正，定价必须重新把它纳入。这是 SaaS 出身的 PM 最大的认知盲区：他们在一个”边际成本≈0”的世界里养成的定价直觉，在 AI 这个”边际成本回归”的世界里会系统性地低估成本、定出亏本价。

[!note] 跨域调度的赌注我赌”微观经济学成本分类法”是比”工程降本清单”更高维的母框架——它能把四个口径、固定/变动拐点、边际成本回归统一在一套坐标里。这个赌注的失效边界：在成本占比极低的低频高价场景（如低频 B2B 工具，推理成本远小于客单价），经济学的精细核算是过度设计，此时简单的”够便宜就行”反而对——见 A07 成本约束反向塑造产品的 failure scenario。

§7 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌：被问”你怎么看 AI 产品的成本”，不要列降本手段（那是工程答案），先反问/澄清”你说的是哪个口径——API 账单、推理成本、TCO，还是 unit economics？“——这一句立刻显出你有成本的多口径意识，把对话从”技术执行”拉到”商业判断”层。然后用 §1 的四口径包裹关系展开。
选型会：任何”A 比 B 便宜”的论断，先定口径再比——若比的是 token 单价（口径①），追问 TCO（口径③）和 per-user COGS（口径④）；若对方拿端侧”省 API 费”，用错配三的 TCO 反问。把比较锚定在正确口径上，是避免选型踩坑的第一道闸。
复现台：动手算账时，R01 最小可运行·Token 成本计算器算的是口径①→②的换算，R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡算的是口径④。先用 A01 确认自己要算哪个口径，再选对应的复现工具，否则会算出”正确但答非所问”的数字。

§8 与已有节点的关系

对 m209 - 推理成本控制手册：抽象层升高（不复述）。m209 是优秀的”降本手段清单”（缓存/路由/语义缓存/对话压缩及其实测收益），它默认你已知道在降哪笔账——A01 补的正是它的前置：在动手降本之前，先辨清”成本”是哪个口径。m209 活在口径①②（推理变动成本），A01 把视野拉到口径③④（TCO 与 unit economics），为 m209 的所有手段提供”该不该降、降的是哪笔账”的判断前提。不复述 m209 的任何具体降本数字。
对 m202 - 工程选型决策矩阵：补缺。m202 §2.2.2 有”成本预算”维度但未展开”成本有几种口径”，A01 给它补上口径辨析，让”成本预算”这一维有了可操作的拆解坐标（按口径①②③④分别评估）。
对 c05 - 算力物理定律与 KV Cache：对话。c05 讲推理成本的物理底层（KV Cache 显存、Prefill/Decode 瓶颈），那是口径②的物理基础；A01 把 c05 的物理量翻译成”会计/经济成本”的语言，说明这些显存约束最终如何沉淀进 per-user COGS。
是整个 0413 专题的”零层”：A01 定种类、A02 成本对象层级辨析·per-token per-query per-task per-user per-seat 定单位、A03 Token Economics 精算做口径①的精算、A07 成本约束反向塑造产品是基于口径④毛利的主轴。后续所有节点的成本讨论都默认已在 A01 完成口径对齐。

§9 关联节点

核心（必读）

A02 成本对象层级辨析·per-token per-query per-task per-user per-seat（定单位，与本节定种类互补）
A03 Token Economics 精算（口径①的精算落地）
A07 成本约束反向塑造产品（基于口径④毛利的判断主轴）
R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡（口径④的可填表）
m209 - 推理成本控制手册（被升高抽象层的工程降本清单）
m202 - 工程选型决策矩阵（被补口径维度的选型矩阵）
S01 AI 产品成本结构分层剖面（四口径在成本分层堆栈里的落位）

延伸（可选）

A06 端侧与云端成本重构（TCO 口径在端侧/云端的应用）
E02 Apple Intelligence 与端侧推理成本剖解（TCO 口径的真实标本）
E03 一个 RAG Agent 产品的 unit economics 拆解（口径④的端到端拆解）
G01 推理成本代际谱系总图（token 价格下降史，回应”等降价”对手）
c05 - 算力物理定律与 KV Cache（口径②的物理基础）
c07 - 量化 Quantization 与端侧部署（TCO 里端侧适配成本的来源）
Prompt Caching（影响口径①数值的缓存折扣机制）
多模型分层（守毛利的手段）
0117社会学（度量与权力：成本口径选择的政治性，见 S03 FinOps for AI·成本可观测与归因全景）
范式（库恩范式更替，读”降价是进步还是成本转移”）
Polanyi 默会知识与提示工程的认识论张力（unit economics 已知数的认识论幻觉）
AI PM 知识图谱·总索引

§10 修订日志

R0（2026-06-07，初稿）：按 SHARED_CONTEXT v1 §4 十一段骨架 + 0413 总览蓝图写成。确立判断主轴”口径错配致成本误判”，落四组”症状→为什么错→正确做法→真实反例”（token 单价当盈利 / API 单价当推理成本 / 端侧漏算 TCO / SaaS 边际成本≈0 直觉误植）；§5 对 “等降价就行” 对手框架做”接受+边界”回应，并引入 Rick 较少调度的路径依赖/锁定框架破 echo chamber；§6 跨域呼应锚定微观经济学成本分类法（会计 vs 经济、固定 vs 变动、边际成本回归），非装饰；§8 与 m209/m202/c05 显式升级对照、不复述。待核实标记：仅余一项——“AI 套壳应用因免费用户烧穿成本被迫加限制”标〔具体公司名待核实〕、降级为据 2024 独立开发者社区公开复盘讨论（未具名硬证）。
R0.1（2026-06-07，grounding pass）：WebSearch 核实两处硬事实并回填带日期口径标注——(1) SaaS 订阅毛利率：CloudZero/Benchmarkit 2025 基准显示订阅毛利中位数约 81%、总收入毛利约 77%、头部超 80%，AI 内核 SaaS 因算力约低 5 个百分点；原文”70–85%“已收紧为”75–81% 中位、头部超 80%“并加源。(2) token 价格下降：Epoch AI / deeplearning.ai 等多源证实前沿输出均价自 2023-03 下降约 94.5%、同质量档位 50–200x；原文”约一个数量级”经核为保守，已加多源标注与日期口径，具体年份曲线仍指向 G01 推理成本代际谱系总图不在本节编造单价。两处均标〔以 2026-06 数据为据〕。