A07 成本约束反向塑造产品

你打开任何一个 AI 产品的设置页：对话有 context 上限、每小时有几十条的消息配额、免费版用几次就”今天的额度用完了”、网络一卡就悄悄换了个更笨的模型回你——这一整套你以为是”产品经理深思熟虑的体验设计”的东西，绝大部分是 token 账单倒逼出来的成本约束，只是穿了一件叫”产品决策”的外衣。 本节要解决的问题是：在 AI 产品里，成本到底是”先做完功能、上线后再交给工程去优化”的后置工程问题，还是一开始就和需求、定价、留存平起平坐的产品一等约束？本节的立场（也是整个 0413 专题的判断主轴）是后者——并给出一套”反向读产品”的方法：看到一个限制，先问它在替哪笔成本止血。

§0 为什么是”成本即一等约束”这个框架，而不是”成本是后置优化”

PM 脑子里默认装着一个 SaaS 时代的框架：成本是后置的。 先把功能做对、把体验打磨好、把留存做起来，等规模上来了再交给工程去”优化性能、降本增效”。这个框架在边际成本≈0 的软件世界里是对的——多服务一个用户几乎不花钱，所以早期可以”不计成本地堆体验”，成本曲线后面会被规模摊平。

这个框架在 AI 产品里结构性失效，因为 AI 产品的变动成本不趋零、随用量线性甚至超线性增长（见 A01 成本概念史与口径辨析）：用户每多发一条消息、上下文每长一点、模型每多想一步（reasoning token），你的账单就实打实地涨一截。于是出现一个 SaaS 没有的现象——最受欢迎的用户最烧钱：重度用户发的消息最多、上下文最长、最爱用最贵的功能，留存做得越好、DAU 涨得越猛，毛利可能反而越薄。这就是为什么”先做体验、后管成本”在 AI 里会把产品做死：等你发现账单失控，体验已经被用户的肌肉记忆锁死，砍配额就是砍留存。

所以本节用的框架不是”成本优化”（一个工程动词），而是**“成本约束塑形”（一个产品名词）**——成本约束像重力一样，在产品诞生那一刻就参与定义它的形状：能开多长的对话、能多频繁地调用、免费给多少、降级时长什么样。把成本当一等约束，意味着这些参数不是上线后才调的旋钮，而是写需求文档时就要和工程一起定的产品骨架。挡在前面的错误框架就是”成本是后置优化”——它让 PM 把 context 上限、rate limit 当成工程的内部实现细节，于是在定价会、需求评审上集体失语。

§1 四件成本倒逼的”伪产品决策”

把 brief 点名的四件套——context 上限、rate limit、优雅降级、免费额度——逐一翻译成它们真正在止的那笔血。这四件事在产品文档里都被写成”体验设计”，本质全是成本结构的投影。

表面的”产品决策”	真实的成本约束	它在替哪笔账止血	反向读法
Context 上限（如”单次对话最多 N 万字”）	KV Cache 显存随上下文线性增长、且推理成本对长 context 超线性（见 c05 - 算力物理定律与 KV Cache、KV Cache）	长对话吃显存、压并发、拉高 per-query 成本；上限是在锁单用户的边际成本天花板	看到 context 窗口，先想它背后的显存账和并发账
Rate limit（每小时/每天 N 条、N tokens）	per-user 边际成本无封顶，重度用户能把单人成本拉到客单价以上	防”少数重度用户烧穿毛利”——本质是 per-user COGS 的硬熔断（见 A02 成本对象层级辨析·per-token per-query per-task per-user per-seat）	看到限流档位，反推它的人均成本红线在哪
优雅降级（高峰期换小模型/缩短回答/排队）	强模型单位成本高、容量有限，峰值全量用强模型会爆预算或爆容量	用质量换成本/容量，把成本曲线削平（接 A05 模型路由与 Mixture-of-models、多模型分层）	看到”今天有点慢/有点笨”，多半是被路由到便宜档了
免费额度（免费版每天 N 次）	免费用户是纯成本（无收入），且 AI 的免费比 SaaS 贵得多（每次调用真金白银）	把”获客成本（CAC）“框进可控区间——免费额度=用 token 买的获客预算（见 R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡）	看到免费额度，把它当一行 CAC 预算来读

这张表的统一句式是：每一个”限制类”产品决策，背后都站着一个成本变量。 把它打印出来贴墙上——下次评审会上有人说”我们把 context 放开到无限吧，体验更好”，你能立刻接：“那 KV Cache 显存和并发上限怎么办，per-user 成本封顶在哪？“这就是成本作为一等约束的具体战斗力。

§2 判断主轴：成本是产品一等约束，不是后置工程——90% 的人在这四处搞错

这是本节、也是全专题的命门。下面四个错位，每个都按”症状 → 为什么会错 → 正确做法 → 真实反例”四件套展开。

错位一：把 context 上限当”工程的内部实现”，需求阶段不碰

症状：PRD 里写”支持超长文档对话/无限上下文”，把”具体多长”标成”工程评估”，自己不参与定。
为什么会错：PM 用 SaaS 直觉——容量是工程的事，加机器就行。但 AI 的 context 长度直接挂在 KV Cache 显存与推理成本上，是线性吃显存、超线性吃钱的产品参数（c05 - 算力物理定律与 KV Cache）；它决定了单用户边际成本天花板，是定价和毛利的输入，不是工程的输出。
正确做法：在写需求时就把 context 上限当成和”功能列表”同级的产品决策，和工程一起定，并明确”放长 N 倍，per-query 成本和并发上限各变多少”。
真实反例：长 context 模型上市后，厂商普遍对超长上下文区间分级加价——Google 对 Gemini 1.5 Pro 采用按 context 长度分档定价：标准档 $1.25/百万输入、$5.00/百万输出，超长上下文区间走更高单价档（该长上下文阈值按 Google 文档为约 128K–200K token 量级，超过即全 prompt 按长上下文价计费）〔截至 2026-06 已核实标准档 $1.25/$5.00 与”按 context 长度分档”结构，来源：Google AI for Developers 定价页 / Developers Blog 2024-10 降价公告；具体阈值与倍率为 volatile，需定期复查〕。这说明”上下文长度”从来不是免费的体验旋钮，而是被厂商显式定价的成本变量；把它甩给工程的 PM，等于把定价权拱手让人。

错位二：把 rate limit 当”防滥用的安全栅栏”，而非”per-user 成本熔断”

症状：限流策略写成”防爬虫、防 DDoS”，按”请求数”一刀切，不区分成本权重。
为什么会错：限流确实有安全用途，但在 AI 产品里它的第一性目的是成本封顶——防的不是恶意流量，是”正常但重度”的用户把 per-user COGS 拉到订阅费之上（A02 成本对象层级辨析·per-token per-query per-task per-user per-seat）。按”请求数”限流会漏掉真正的成本黑洞：一次长 context + 深度 reasoning 的请求，成本可能是普通请求的几十倍。
正确做法：限流维度要对齐成本维度——按 token 量、按上下文长度、按是否用 reasoning/thinking 模式分别设限，让限流栅栏的形状贴合成本曲线的形状。
真实反例：主流厂商的限流早已是多维的：Anthropic 的 Messages API 同时按 RPM（请求/分钟）、ITPM（输入 token/分钟）、OTPM（输出 token/分钟）三个维度对每个模型类分别限流（来源：Anthropic API Docs · Rate limits），正是因为单看”请求数”无法封住成本；输出 token 比输入贵数倍（见 A03 Token Economics 精算），必须单独给它套笼子。更妙的是这套限流直接和成本机制咬合：命中缓存的输入 token 不计入 ITPM（且只按基础输入价的约 10% 计费）——限流的”放行口”刚好开在最便宜的那条路上，是把成本激励写进限流规则的范本（接 Prompt Caching）。

错位三：把”优雅降级”当纯体验功能，没把它接到成本/容量曲线

症状：降级被当成”网络不好时的兜底交互”，由前端做个 loading 或重试，不进成本模型。
为什么会错：在 AI 产品里，优雅降级的核心是用质量换成本与容量——高峰期把请求从贵模型路由到便宜模型、把长回答截短、把同步改异步排队，本质是在削平成本/容量的峰值（A05 模型路由与 Mixture-of-models）。它不是前端兜底，是成本工程的产品出口。
正确做法：把降级设计成显式的质量-成本档位，并在产品上想清楚”用户能不能感知、感知了会不会流失、哪些场景绝不能降级”（医疗/法律等质量刚性区不能用便宜模型兜底——这是 Baumol 成本病的产品体现，见 §对手框架）。
真实反例：ChatGPT 免费版在旗舰模型额度耗尽（或高峰期高负载）后会静默回退到能力更弱的 mini 模型继续服务，而不是直接拒绝——具体降级目标随版本演进（曾是 GPT-4o mini，后改为 GPT-4.1 mini）〔以2026-06行为·待核实当期具体目标模型，来源：OpenAI 帮助中心 / 多家用量限制评测〕。这正是”用质量换可用性与成本”的降级，是产品决策而非工程兜底。它的代价是：用户若能感知到”变笨了”，满意度和留存会受损，所以降级的可感知度本身是个要被 PM 拿捏的产品变量。

错位四：把免费额度当”营销活动”，不当 CAC 预算来管

症状：免费额度由市场/增长拍脑袋定（“先给得大方点拉用户”），不和单位成本挂钩。
为什么会错：SaaS 的免费用户近乎零成本，所以可以”慷慨”；AI 的每次免费调用都是真金白银，免费额度是用 token 买的获客预算，本质是 CAC 的一部分（R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡）。定大了，烧钱获客却转化不上来；定小了，体验不到价值就流失。
正确做法：把免费额度当一行 CAC 来算——“每个免费用户平均消耗多少 token 成本 × 免费用户数 = 获客投入”，再对齐转化率与 LTV，让免费额度落在”能体验到价值、又不破产”的区间，并随 token 价格变化动态调整。
真实反例：多家 AI 应用上线初期”无限免费/无限使用”后被迫快速收紧——这是免费额度未当成本约束管理的典型代价。一个可追溯的方向性事实：OpenAI 的 Sam Altman 在 2025-01-07 公开表示 ChatGPT Pro（$200/月）订阅在亏钱——原话”we are currently losing money on openai pro subscriptions! people use it much more than we expected”（来源：Sam Altman X/Twitter，2025-01-07；Fortune 同日报道），并提到可能转向按量计费而非统一价无限用。连付费档（且是最贵那档）都会因重度使用而成本倒挂——这恰是 §1 表里”重度用户最烧钱""统筹定价被重度用户击穿”的活证据，免费额度的成本纪律只会更紧。

§3 产品 PM 视角补盲：成本约束的三个”看走眼”点

跳出”工程 PM”视角，补三个容易被技术叙事盖过的产品/商业盲点：

用户心理模型：成本约束一旦被用户感知，会从”产品设计”变成”对用户的剥夺感”。“今天的额度用完了”在用户脑中不是”我用得够多了”，而是”这产品很抠”。所以成本约束的呈现方式是产品工艺：同样是限流，“明天再来”和”升级解锁”传递的情绪完全不同。降级也一样——用户若发现”我没感觉变化”是最佳降级，若发现”它偷偷变笨了”则是信任损伤。
商业模式：成本约束直接决定定价分层的形状。订阅制能成立的前提是”绝大多数用户的成本远低于订阅费、少数重度用户被 rate limit 兜住”——这是一种成本上的统筹（pooling）。一旦重度用户占比上升或单位成本上涨，pooling 失效，要么涨价、要么收紧额度、要么转向按量计费（usage-based）。所以”用订阅还是按量”不是纯商业选择，是成本结构能不能撑住 pooling 的函数。
合规边界：成本约束和合规会打架。端侧推理”省了 API 费”还利好隐私（数据不出端），看似双赢；但质量刚性的合规场景（如需要可审计、可解释的输出）往往要求最强模型，端侧/便宜模型兜底会触碰合规红线（见 A06 端侧与云端成本重构）。这里 PM 要识别的是：成本最优路径可能不是合规可行路径，降级策略要为合规场景留”绝不降级”的白名单。

§4 对手框架回应：成本是不是被夸大了？（接受 + 边界）

[!note] 对手立场一：精益创业 / “先上线再优化成本”派接受：他们对的部分很硬——MVP 阶段过早抠成本会拖死迭代速度，把工程精力耗在还没验证 PMF 的产品上是浪费。“先做出有人用的东西”在大多数早期产品里确实优先于”做出便宜的东西”。 边界与赌注：但 AI 产品有一条 SaaS 没有的特性——成本是分钟级失控的。一个 prompt 注入循环、一个 agent 死循环、一次被薅羊毛的免费接口，能在几分钟内烧光一天预算（见 S03 FinOps for AI·成本可观测与归因全景）。所以本节的边界是：功能可以后优化，但成本的”熔断/降级触发器”（rate limit、预算告警、自动降级）必须在第一版就有。 这不是”过早优化”，是”过早装保险丝”——两者的区别是后者的缺失会直接把公司账户清零。

[!note] 对手立场二：“等模型降价，成本约束自会消失”派（接 G01 推理成本代际谱系总图）接受：token 价格确实在以惊人速度下降，单看单价，今天的”贵”明天可能就不贵了。 边界与赌注：但这正是 Jevons 悖论 要反对的乐观（见 §跨域呼应）——单位成本下降会刺激调用量、上下文长度、推理深度暴涨，总账单常不降反升。更要命的是，降价的同时新增了更贵的消费方式：reasoning/thinking token 单独计费（见 A03 Token Economics 精算）让”想得更深”成为新的烧钱项。所以成本约束不会因降价而消失，只会换个地方爆——这是主动设计问题（要主动限流），不是等待问题。

[!note] failure scenario（本节判断的失效边界，诚实标注） “成本约束反向塑造产品”这条主轴，在成本占比极低的场景失效——如低频高价的 B2B 工具（一次咨询报告卖几千元、推理成本几块钱），此时推理成本相对客单价是噪声，产品决策由别的约束（合规、交付质量、客户关系）主导。在这种场景强行用成本视角解释 context 上限或限流，会误判产品意图。本节的判断成立的前提是：推理成本占客单价/订阅费的比例不可忽略（典型在面向消费者的高频 AI 应用、薄毛利的 API 转售产品里成立）。

§5 跨域呼应：Jevons 悖论——为什么”降本”反而要”限流”

[!note] 跨域资源调度：Jevons 悖论（W.S. Jevons《The Coal Question》1865）杰文斯发现：蒸汽机效率提升（烧同样的煤做更多功）非但没减少煤的消耗，反而因为煤变”便宜好用”而刺激了总消耗暴涨。效率提升与总消耗增加可以同向。

这个 161 年前的经济学观察，直接改变了本节对”成本约束”的判断。直觉框架是：token 越来越便宜 → 成本约束会越来越松 → context 上限、rate limit、免费额度都可以放开。Jevons 悖论把这个推理整个推翻：单位 token 越便宜，用户和开发者越会”奢侈地”用它——开更长的上下文、让模型想得更深、把 AI 塞进更多场景，总 token 消耗的增速往往超过单价的降速，总账单不降反升。

这意味着一个反直觉的产品结论：正因为推理在变便宜，成本约束才更要被主动设计，而不是放开。 放开 context 上限不会因为单价降了就安全，它会立刻被”反正便宜”的长对话填满；取消 rate limit 不会因为模型便宜了就不烧钱，它会被涌入的调用量填满。Jevons 把”成本约束”从一个”等技术进步来解除的临时枷锁”，重诊为”必须长期、主动维护的产品塑形力”。这也是为什么本专题反对”等降价”派——降价不解除约束，它只是改变约束要卡在哪里。

§6 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌：被问”你怎么设计一个 AI 产品的限制策略”，不要答”防滥用、保体验”，要答：“我会先把每个限制接到它对应的成本变量上——context 上限对 KV Cache 显存与 per-query 成本、rate limit 对 per-user COGS 熔断、降级对峰值容量与成本、免费额度对 CAC 预算。限制的形状要贴合成本曲线的形状。“再补一句 Jevons：“越是模型降价，越要主动维护这些约束。“——这一答立刻把你和”只懂体验的 PM”区分开。
选型/在岗：评审任何”放开限制提升体验”的提案，用本节的反向读法逐条质询：“放开后这笔成本怎么走？per-user 成本天花板抬到哪？毛利还撑得住 pooling 吗？“反过来评审”加限制”的提案，确认它有没有过度伤害用户心理模型（剥夺感）和留存。
复现台：动手时，先用 R01 最小可运行·Token 成本计算器把一次典型对话/任务的成本算出来，再用 R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡反推”在当前定价下，context 上限/rate limit/免费额度该卡在哪才不亏”——把本节的定性判断变成可贴进定价 deck 的具体数字。

§7 与已有节点的关系

对 m209 - 推理成本控制手册：抽象层升高 + 视角翻转。m209 站在工程视角讲”用缓存/路由/语义缓存/对话压缩怎么把成本降下来”（降本是动作）；本节站在产品视角讲”成本约束怎么反过来定义产品的形状”（约束是塑形力）。同一组技术手段（路由、限流），m209 当降本工具，本节当产品决策。不复述 m209 的降本手段清单与实测数字。
对 c05 - 算力物理定律与 KV Cache：翻译。c05 给出 KV Cache 的物理公式与显存上限；本节把”显存物理上限”翻译成产品语言——“这就是为什么有 context 上限”，把物理约束接到产品参数。
对 A05 模型路由与 Mixture-of-models：复用 + 上移。A05 讲路由/兜底的成本工程实现；本节把路由的产品出口（优雅降级）提炼成”用质量换成本”的产品决策，并补”降级的可感知度是产品变量”这一 A05 不谈的产品维度。
对 m202 - 工程选型决策矩阵：对话。m202 在选型时把成本当一个评估维度；本节把成本从”选型时的一个维度”升级为”贯穿产品生命周期的塑形约束”——选型只是它的一个切面。
对 c06 - 架构演进：Dense MoE SSM Hybrid / c07 - 量化 Quantization 与端侧部署：间接对话。架构与量化决定了”降级时能换到多便宜的模型/能否端侧化”，是本节”优雅降级""端侧分流”产品决策的技术底座（端侧细节见 A06 端侧与云端成本重构）。

§8 关联节点

核心（必读）

A01 成本概念史与口径辨析（成本为何不趋零，本节立场的前提）
A02 成本对象层级辨析·per-token per-query per-task per-user per-seat（rate limit 即 per-user 熔断）
A05 模型路由与 Mixture-of-models（优雅降级的工程实现）
R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡（免费额度即 CAC、限制如何反推毛利）
c05 - 算力物理定律与 KV Cache（context 上限的物理根源）
m209 - 推理成本控制手册（被本节翻转视角的工程降本基线）
_成本工程系统化专题·总览（本专题 MOC，A07 为判断主轴）

延伸（可选）

A03 Token Economics 精算（输出 token 更贵 → 多维限流的根因）
A06 端侧与云端成本重构（端侧分流作为降级/成本-隐私权衡）
G01 推理成本代际谱系总图（降价不解除约束的代际证据）
S03 FinOps for AI·成本可观测与归因全景（成本熔断/告警的运维落地）
E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解（本节判断的真实标本）
R01 最小可运行·Token 成本计算器（把限制变成数字）
m202 - 工程选型决策矩阵、c06 - 架构演进：Dense MoE SSM Hybrid、c07 - 量化 Quantization 与端侧部署
多模型分层、KV Cache、量化、MoE、Prompt Caching、Test-Time Compute
跨域/方法论：范式、0117社会学、Polanyi 默会知识与提示工程的认识论张力、AI PM 知识图谱·总索引

§9 修订日志

R0（2026-06-07，初稿）：按宪章 §4 十一段骨架落稿。确立判断主轴”成本是产品一等约束非后置工程”，§1 四件成本倒逼的伪产品决策对照表（context 上限/rate limit/优雅降级/免费额度 → 各自对应的成本变量），§2 判断主轴四错位（每个四件套：症状→为什么错→正确做法→真实反例），§4 两处对手框架”接受+边界”（精益创业派、等降价派）+ 1 处 failure scenario（低频高价 B2B 成本占比极低时主轴失效），§5 跨域呼应 Jevons 悖论（降本反而要限流，落地非装饰），§7 与 m209/c05/A05/m202/c06/c07 显式升级对照（视角翻转/翻译/上移/对话，不复述），§8 关联节点分核心/延伸。- R1（2026-06-07，grounding pass）：四处硬事实经 WebSearch 核实并升级——①Anthropic Messages API RPM/ITPM/OTPM 三维限流已确证（来源 Anthropic API Docs），并补入”缓存输入 token 不计入 ITPM、按基础价约 10% 计费”这一更强的成本-限流咬合证据；②Gemini 1.5 Pro 按 context 长度分档定价已确证（≤128K 走 $1.25/$5.00 标准价、>128K 走更高档，来源 Google AI for Developers / Developers Blog 2024-10），具体倍率仍标〔以2026-06·待核实〕；③ChatGPT 限额耗尽静默降级到 mini 模型已确证（曾 GPT-4o mini→后 GPT-4.1 mini，来源 OpenAI 帮助中心/评测），当期具体目标模型标〔待核实〕；④Altman 表态纠正并升级：原稿误记为 ChatGPT Plus（$20），实为 Pro（$200）亏钱，已补 2025-01-07 X 原话与 Fortune 来源，并接回 §1”重度用户最烧钱”主轴。剩余待核实项（2 项，均为 volatile 价/口径，已就地标注非编造）：Gemini >128K 的具体加价倍率、ChatGPT 当期降级目标模型版本。
2026-06-11 P3.1 接地修复：§2 反例的 Gemini 1.5 Pro 分档定价经 WebSearch 复核——标准档 $1.25/$5.00 与”按 context 长度分档”结构确证（来源 Google AI for Developers / Developers Blog 2024-10），长上下文阈值据 Google 文档为约 128K–200K token 量级（原稿写死 128K，已放宽为”128K–200K 量级”并注明阈值/倍率为 volatile），整句〔以2026-06定价·待核实〕升级为〔截至 2026-06 已核实标准档与分档结构，需定期复查〕。Altman “Pro $200 亏钱”为 2025-01-07 历史表态、不随时间漂移，维持。

R0 初稿要点：按宪章 §4 十一段骨架落稿。确立判断主轴”成本是产品一等约束非后置工程”，§1 四件成本倒逼的伪产品决策对照表，§2 判断主轴四错位（四件套），§4 两处对手框架”接受+边界”+ 1 处 failure scenario，§5 跨域呼应 Jevons 悖论，§7 与 m209/c05/A05/m202/c06/c07 显式升级对照，§8 关联节点分核心/延伸。