R

A01 成本概念史与口径辨析

创建 2026-06-07 更新 2026-06-11 14 条双链 成本工程 专题 AI 整理

A01 成本概念史与口径辨析

当一个 PM、一个工程、一个 CFO 在同一场会上说”我们的成本是多少”,他们说的几乎从来不是同一件事。本节点要解决的问题是:“成本”在 AI 产品里至少有四种互不通约的口径(token 计费 / 推理成本 / TCO / unit economics),把它们当成一个数来用,是 AI PM 最常见、也最致命的误判源头。 本节的视角是口径考古学 + 微观经济学成本概念——先把”成本”这个被磨平的词拆回它的概念史,再用经济学的成本分类法(固定/变动、显性/隐性、会计/机会)给四口径做坐标定位,最后辨析 COGS·CAC·LTV·gross margin 在 AI 产品与传统 SaaS 之间的系统性差异。


§0 为什么是”四口径之辨”这个框架,而不是”成本清单”

读者脑中的默认框架是把”降本”理解成一张手段清单——缓存、路由、量化、batching,挨个上。m209 - 推理成本控制手册 就是这张清单的优秀版本。但清单框架有一个前置漏洞:它默认你已经知道自己在降哪笔账。 现实是,绝大多数关于成本的争论根本不是”该用哪个手段”,而是”我们说的成本是同一个东西吗”——一方在说 API 账单(token 计费口径),另一方在说”那这个产品到底赚不赚钱”(unit economics 口径),两人吵了一小时才发现根本不在一个坐标系里。

所以本节点不开手段清单(那是 S02 降本手段流派对照矩阵 的事),而是做一次口径级辨析:先建立”成本”这个词的四个互不通约的指称,挡住”成本=API 单价”这个把多维概念压成一维标量的默认错误框架。这是整个 0413 专题的”零层”——口径不统一,后面所有的精算(A03 Token Economics 精算)、对象层级(A02 成本对象层级辨析·per-token per-query per-task per-user per-seat)、毛利测算(R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡)都建在流沙上。

[!note] 一句话区分 A01 和 A02 A01 辨的是成本的”种类”(token 计费 / 推理 / TCO / unit economics 是四种不同性质的成本概念);A02 成本对象层级辨析·per-token per-query per-task per-user per-seat 辨的是成本的”计量单位”(同一笔推理成本,按 per-token、per-query、per-user 算出来数量级不同)。先读 A01 定种类,再读 A02 定单位。


§1 四口径的考古与坐标定位

把四个口径放进微观经济学的成本坐标系(会计成本 vs 经济成本、显性 vs 隐性、固定 vs 变动),它们的差异立刻清晰:

口径它指的是经济学性质谁在用典型陷阱
① Token 计费API 按 input/output token 收的钱(如 $X / 百万 token)会计成本 · 显性 · 纯变动成本工程、运营把单价当成本全貌,忽略它只是”账单”不是”成本结构”
② 推理成本完成一次推理实际消耗的算力/显存/电力(自建时)或被定价覆盖的底层成本经济成本 · 含隐性 · 固定(GPU 折旧/常驻显存)+ 变动(算力)算法、基础设施把”API 单价”等同于”推理成本”,忽略厂商的毛利/补贴/规模摊薄
③ TCO(总拥有成本)把一个方案养活所需的全部成本:推理 + 工程适配 + 运维 + 监控 + 质量回退 + 迁移经济成本 · 重隐性 · 固定为主架构、采购、CTO只算显性那一项(“端侧省了 API 费”),漏掉设备/适配/维护的隐性成本
④ Unit Economics把成本接回商业账:per-user COGS、CAC、LTV、gross margin、盈亏平衡点经济成本 + 收入侧PM、增长、CFO、投资人拿 per-token 单价直接谈盈利,跳过转化率/调用频次/留存

这四个口径是逐层包裹的,不是并列的。 Token 计费 ⊂ 推理成本 ⊂ TCO ⊂ Unit Economics——后者把前者作为一个分项吞进去,再补上前者看不见的维度。一个只懂 token 计费的人,永远算不清 TCO;一个只懂 TCO 的人,回答不了”这个产品该定价多少”。

概念史的一个关键断点:边际成本从”≈0”变回”线性”

微观经济学里,软件曾经是”边际成本递减至近零”的典范产业——多服务一个用户的额外成本几乎为零,这是 SaaS 高毛利神话的根基(典型订阅业务毛利率中位数约 75–81%、头部超 80%;耐人寻味的是,AI 内核的 SaaS 公司因算力成本,毛利已普遍比纯 SaaS 低约 5 个百分点〔CloudZero / Benchmarkit 2025 SaaS 基准·以 2026-06 数据为据〕)。AI 产品打破了这个神话。 每多一次推理调用都要真金白银地烧 token/算力,变动成本随用量近似线性增长。这不是量变是质变:AI 产品的成本曲线从”软件”退回到了”制造业/服务业”——更像每多卖一辆车要多耗一份钢材,而不是多卖一份 Excel license 几乎零成本。这个断点是后面所有口径差异的根因(详见 §3)。


§2 COGS·CAC·LTV·gross margin 在 AI 产品 vs 传统 SaaS

这四个 unit economics 核心概念在 AI 产品里都发生了语义偏移。JD 和产品白皮书里混着用,但含义系统性不同:

指标传统 SaaS 的含义AI 产品里的偏移偏移的后果
COGS(销货成本)主要是托管/带宽/客服,边际成本≈0,占收入比例低推理成本(token/算力)成为 COGS 主项,随用量线性增长gross margin 不再是固定高位,而是随用户行为浮动(重度用户可能负毛利)
CAC(获客成本)销售/市场费用要把”免费额度/试用推理成本”计入 CAC——每个未转化用户烧掉的 token 是纯获客支出免费策略不再是”零边际成本拉新”,而是真金白银的现金流出,定免费额度 = 定 CAC 上限
LTV(生命周期价值)留存 × 客单价,成本侧稳定留存高 ≠ LTV 高——重度使用的高留存用户可能拉低 LTV(成本超过他付的钱)“用户越活跃越好”的 SaaS 直觉失效,需按”贡献毛利”而非”活跃度”分层
Gross Margin(毛利率)70–85%,相对刚性,是估值锚随模型选型、缓存命中率、用户结构剧烈波动,可能从 80% 掉到负数毛利成为产品设计变量而非会计结果——context 上限、rate limit 都是在守毛利线

[!warning] 一个反直觉但要命的结论 在传统 SaaS,留存是 LTV 的同义词——留住用户就是赚钱。在 AI 产品,留存和毛利可能反向:一个每天狂用的高留存用户,若订阅费固定而推理成本随用量涨,他越活跃你越亏。这正是各家”无限使用”订阅纷纷加 rate limit / 降级到便宜模型的根因(见 E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解)。SaaS 的”DAU 越高越好”在 AI 产品里要打一个成本侧的问号。


§3 判断主轴:口径错配导致成本误判(症状 → 为什么错 → 正确做法 → 真实反例)

这是本节点的命门——90% 的成本误判,根子都在”用错了口径”。 四个最常见的错配:

错配一:拿 token 单价当产品成本谈盈利

  • 症状:“我们用的模型才 $X/百万 token,这么便宜,肯定赚钱。”
  • 为什么会错:token 单价是口径①(纯变动、显性、per-token),盈利问的是口径④(per-user、含 CAC/留存)。中间隔着”人均月调用量 × 转化率 × (1 − 免费用户占比)“三道乘除,单价低不代表 per-user COGS 低。一个人均每月调用 5000 次的产品,单价再低也能把毛利吃穿。
  • 正确做法:永远把口径①经过 A02 成本对象层级辨析·per-token per-query per-task per-user per-seat 的换算链升到口径④再下结论——per-token → per-query → per-user/月 → 减 CAC → 看毛利。
  • 真实反例:2023–2024 一批”AI 套壳”应用,按 API 单价测算毛利乐观,上线后发现重度免费用户把推理成本烧穿,被迫紧急加 rate limit 或关停免费层——经典的”用口径①定价、被口径④打脸”。这类故事在 2024 年的独立开发者社区反复出现〔以 2026-06 的公开复盘讨论为据·具体公司名待核实〕。

错配二:把”API 单价”等同于”推理成本”

  • 症状:“自建推理太贵,用 API 更便宜”——或反过来”API 有溢价,自建一定省钱”。
  • 为什么会错:API 单价(口径①)是厂商定价,里面含厂商毛利、也含规模摊薄与可能的获客补贴;真实推理成本(口径②)含 GPU 折旧、常驻显存、闲置率。两者的关系不是固定倍数:在高利用率/规模化下自建可能更便宜,在低利用率下 API 的”按用量付费”反而省掉了固定成本。
  • 正确做法:自建 vs API 的比较必须升到 TCO(口径③)并代入利用率假设,而不是比单价。算清盈亏利用率拐点(GPU 折旧摊到多少调用量才低于 API 单价)。
  • 真实反例:很多团队看 API 有”溢价”就冲动自建,结果 GPU 利用率长期不到 30%,固定成本摊下来远贵于 API——把口径①的”溢价”当成了口径②/③的”可省成本”。

错配三:用 API 单价比”端侧 vs 云端”,漏算 TCO

  • 症状:“端侧推理不要钱(不付 API 费),所以端侧一定降本。”
  • 为什么会错:端侧省的是口径①(API 变动成本),但加上了口径③才看得见的隐性成本——模型适配/量化工程、设备端质量回退、多端维护、用户设备发热/耗电的体验成本。“省了 API 费”只是 TCO 里的一项。
  • 正确做法:端侧 vs 云端必须在 TCO 口径下比,把适配/维护/质量损失折算进去(详见 A06 端侧与云端成本重构E02 Apple Intelligence 与端侧推理成本剖解)。
  • 真实反例:Apple Intelligence 选择端侧 + 私有云分流而非纯端侧,正是因为纯端侧的 TCO(设备能力门槛 + 质量回退)在复杂任务上不划算——这是用 TCO 口径而非 API 单价口径做的决策。

错配四:把 SaaS 的”边际成本≈0、毛利刚性”直觉套到 AI

  • 症状:“我们是软件,毛利当然 80%,用户越多越赚。”
  • 为什么会错:这是用旧的软件成本曲线(口径④的 SaaS 版)套 AI。AI 的 COGS 随用量线性增长,毛利是浮动的产品变量,DAU 高未必毛利高。
  • 正确做法:把毛利当成需要主动设计和守护的变量——用 context 上限、rate limit、模型分层、缓存来把 per-user COGS 压在定价线以下(这正是 A07 成本约束反向塑造产品 的主轴)。
  • 真实反例:早期”无限对话""无限额度”的 AI 订阅产品几乎无一例外地引入了限制或分层,因为按 SaaS 直觉做的”无限”定价在 AI 成本曲线下不可持续。

§4 产品 PM 视角补盲

工程视角容易把”成本”窄化为口径①②(怎么把单次推理做便宜)。PM 必须补三个走样点:

  1. 用户心理模型 × 口径错配:用户感知的”贵”是订阅价(口径④的价格侧),不是 token 数。把”按量计费”直接暴露给消费者(透传口径①)几乎总会失败——用户讨厌”用一次心疼一次”的计价焦虑。这是为什么 C 端几乎都包月(把变动成本风险吞进毛利),B2B/API 才按量。口径选择本身是产品决策。
  2. 商业模式 × LTV 偏移:传统 SaaS 增长团队的 KPI 是 DAU/留存;AI 产品若照搬,会激励出”高活跃但负毛利”的用户结构。增长指标必须从”活跃度”改成”贡献毛利”,否则增长越猛亏得越快。
  3. 合规/采购 × TCO 话语权:企业采购讲 TCO(口径③),不讲 token 单价。PM 在 B2B 场景报价时若只谈”我们 API 比对手便宜”,会被采购用 TCO(含集成/迁移/合规审计成本)问到哑口——锁定成本、数据驻留合规成本都在 TCO 里。

§5 对手框架回应:接受 + 边界

业界主流反方立场:“等模型降价就行,口径辨析是过度设计——token 价格在指数级下降,迟早便宜到可以忽略,PM 不必为成本口径较真。“(这是 token 价格外推乐观主义,2025–2026 在很多产品会上是默认共识。)

  • 接受它对的部分:token 价格确实在以惊人速度下降——前沿模型的输出 token 均价自 2023-03 已下降约 94.5%(约一个数量级),而”达到同等质量所需的价格”下降更猛(同质量档位常见 50–200x,因任务而异)〔Epoch AI / deeplearning.ai / TokenCost 等多源·以 2026-06 公开定价对比为据·完整曲线与年份详见 G01 推理成本代际谱系总图〕。在很多轻量场景,成本占比确实已低到不构成约束——此时强行做精细口径核算是过度工程,这一点对手是对的。
  • 但本专题坚持的边界:第一,Jevons 悖论——单位成本下降会刺激调用量、上下文长度、推理深度(reasoning token)暴涨,总账单常不降反升,“等便宜”等到的是更复杂的成本结构而非成本消失。第二,Baumol 成本病——质量敏感场景(医疗/法律/安全审核)不能用便宜模型兜底,这部分成本不随技术进步下降,是成本刚性区,口径辨析在这里恰恰最值钱。第三,降价改变的是口径①的数值,不改变口径②③④的存在——TCO 里的工程/运维成本、unit economics 里的 CAC,跟 token 单价无关,永远需要单独核算。所以口径辨析不是”等降价”能替代的,它在不同口径上各有不可消解的成本。

[!note] 一个未被充分讨论的对手框架(破 echo chamber) 路径依赖 / 锁定(Paul David 1985 “QWERTY”、Brian Arthur 收益递增) 提供了一个 Rick 较少调度的反问:为什么不一开始就按最省 token 单价的方案选型?因为口径①的”便宜”可能制造口径③的”锁定成本”——早期为省单价绑定的便宜模型/私有 harness/特定厂商,会形成数据与工程锁定,迁移成本随时间上升。最优口径不是当下 token 单价最低,而是 TCO(含未来迁移成本)最低。这逼问了本专题自己也容易犯的”当下单价最优=最优”的偏见。


§6 跨域呼应:微观经济学成本概念是这套口径辨析的母体

本节点调度的核心跨域资源是微观经济学的成本分类法,它不是装饰,而是直接重塑了判断:

  • 会计成本 vs 经济成本:token 计费(口径①)是会计成本——账面上实际付出去的钱;而推理成本(口径②)和 TCO(口径③)包含机会成本与隐性成本(自建占用的工程师时间、GPU 闲置的机会成本、质量回退导致的用户流失)。AI PM 最常犯的错就是只算会计成本、漏算经济成本。经济学告诉我们:决策应基于经济成本,核算可以用会计成本——这正是为什么”API 单价便宜”不等于”该用 API”。
  • 固定成本 vs 变动成本:这套区分直接解释了”自建 vs API”的拐点——自建是高固定(GPU 折旧)低变动,API 是零固定纯变动,盈亏点取决于利用率。也解释了 MoE 的成本悖论(A04 推理成本三角·模型大小 延迟 质量):MoE 用常驻显存(固定成本)换激活算力(变动成本),对小规模部署反而更贵。
  • 边际成本与定价:经济学的”价格应覆盖边际成本”在 SaaS 时代近乎失效(边际成本≈0,定价靠价值锚定),在 AI 产品时代重新生效——AI 的边际成本(每次推理)显著为正,定价必须重新把它纳入。这是 SaaS 出身的 PM 最大的认知盲区:他们在一个”边际成本≈0”的世界里养成的定价直觉,在 AI 这个”边际成本回归”的世界里会系统性地低估成本、定出亏本价。

[!note] 跨域调度的赌注 我赌”微观经济学成本分类法”是比”工程降本清单”更高维的母框架——它能把四个口径、固定/变动拐点、边际成本回归统一在一套坐标里。这个赌注的失效边界:在成本占比极低的低频高价场景(如低频 B2B 工具,推理成本远小于客单价),经济学的精细核算是过度设计,此时简单的”够便宜就行”反而对——见 A07 成本约束反向塑造产品 的 failure scenario。


§7 PM 决策启示:面试 / 选型 / 复现三类落地

  • 面试桌:被问”你怎么看 AI 产品的成本”,不要列降本手段(那是工程答案),先反问/澄清”你说的是哪个口径——API 账单、推理成本、TCO,还是 unit economics?“——这一句立刻显出你有成本的多口径意识,把对话从”技术执行”拉到”商业判断”层。然后用 §1 的四口径包裹关系展开。
  • 选型会:任何”A 比 B 便宜”的论断,先定口径再比——若比的是 token 单价(口径①),追问 TCO(口径③)和 per-user COGS(口径④);若对方拿端侧”省 API 费”,用错配三的 TCO 反问。把比较锚定在正确口径上,是避免选型踩坑的第一道闸。
  • 复现台:动手算账时,R01 最小可运行·Token 成本计算器 算的是口径①→②的换算,R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡 算的是口径④。先用 A01 确认自己要算哪个口径,再选对应的复现工具,否则会算出”正确但答非所问”的数字。

§8 与已有节点的关系

  • m209 - 推理成本控制手册:抽象层升高(不复述)。m209 是优秀的”降本手段清单”(缓存/路由/语义缓存/对话压缩及其实测收益),它默认你已知道在降哪笔账——A01 补的正是它的前置:在动手降本之前,先辨清”成本”是哪个口径。m209 活在口径①②(推理变动成本),A01 把视野拉到口径③④(TCO 与 unit economics),为 m209 的所有手段提供”该不该降、降的是哪笔账”的判断前提。不复述 m209 的任何具体降本数字。
  • m202 - 工程选型决策矩阵:补缺。m202 §2.2.2 有”成本预算”维度但未展开”成本有几种口径”,A01 给它补上口径辨析,让”成本预算”这一维有了可操作的拆解坐标(按口径①②③④分别评估)。
  • c05 - 算力物理定律与 KV Cache:对话。c05 讲推理成本的物理底层(KV Cache 显存、Prefill/Decode 瓶颈),那是口径②的物理基础;A01 把 c05 的物理量翻译成”会计/经济成本”的语言,说明这些显存约束最终如何沉淀进 per-user COGS。
  • 是整个 0413 专题的”零层”:A01 定种类、A02 成本对象层级辨析·per-token per-query per-task per-user per-seat 定单位、A03 Token Economics 精算 做口径①的精算、A07 成本约束反向塑造产品 是基于口径④毛利的主轴。后续所有节点的成本讨论都默认已在 A01 完成口径对齐。

§9 关联节点

核心(必读)

延伸(可选)


§10 修订日志

  • R0(2026-06-07,初稿):按 SHARED_CONTEXT v1 §4 十一段骨架 + 0413 总览蓝图写成。确立判断主轴”口径错配致成本误判”,落四组”症状→为什么错→正确做法→真实反例”(token 单价当盈利 / API 单价当推理成本 / 端侧漏算 TCO / SaaS 边际成本≈0 直觉误植);§5 对 “等降价就行” 对手框架做”接受+边界”回应,并引入 Rick 较少调度的路径依赖/锁定框架破 echo chamber;§6 跨域呼应锚定微观经济学成本分类法(会计 vs 经济、固定 vs 变动、边际成本回归),非装饰;§8 与 m209/m202/c05 显式升级对照、不复述。待核实标记:仅余一项——“AI 套壳应用因免费用户烧穿成本被迫加限制”标〔具体公司名待核实〕、降级为据 2024 独立开发者社区公开复盘讨论(未具名硬证)。
  • R0.1(2026-06-07,grounding pass):WebSearch 核实两处硬事实并回填带日期口径标注——(1) SaaS 订阅毛利率:CloudZero/Benchmarkit 2025 基准显示订阅毛利中位数约 81%、总收入毛利约 77%、头部超 80%,AI 内核 SaaS 因算力约低 5 个百分点;原文”70–85%“已收紧为”75–81% 中位、头部超 80%“并加源。(2) token 价格下降:Epoch AI / deeplearning.ai 等多源证实前沿输出均价自 2023-03 下降约 94.5%、同质量档位 50–200x;原文”约一个数量级”经核为保守,已加多源标注与日期口径,具体年份曲线仍指向 G01 推理成本代际谱系总图 不在本节编造单价。两处均标〔以 2026-06 数据为据〕。