E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解
E01 ChatGPT 与 Claude 的 context rate-limit 产品成本耦合剖解
本节点要解决的问题:当你抱怨”Claude 怎么又限额了""ChatGPT Plus 的窗口怎么这么短”时,你看到的是抠门,还是看到的是一家公司的 unit economics 在产品表面留下的指纹? 本节用”成本结构反推产品限制”这一把解剖刀,逐一拆 context 上限、message rate limit、订阅分层三类限制——证明它们不是 PM 拍脑袋的产品决策,而是 c05 - 算力物理定律与 KV Cache 的显存物理 + 推理变动成本,沿订阅价格倒逼出来的约束方程的解。这是把 A07 成本约束反向塑造产品 这条判断主轴钉进两个你天天用的真实标本。
§0 为什么是”成本反推”框架,而不是”产品体验”框架
分析一个产品限制,PM 脑子里默认会跳出两个框架。框架一是”产品体验/竞争”框架:“Claude 限额是因为它想逼你升 Max""ChatGPT 缩短窗口是体验取舍”。这个框架不能说全错,但它把限制当成自由的策略选择——仿佛厂商可以随便松绑、只是不愿意。框架二(本节坚持的)是”成本约束”框架:限制首先是 unit economics 的硬约束在产品表面的投影,厂商的策略空间被成本结构锁死在一个很窄的区间里,所谓”产品决策”大多是在这个窄区间内的微调。
为什么必须先做这次框架辨析?因为用错框架会让 PM 在两处犯致命错误:(1) 在面试桌上把”为什么 Claude 限额”答成”为了卖 Max 订阅”——这是把结果当原因,真正的原因是一个 $20/月的订阅 cover 不住一个重度用户烧的推理成本;(2) 在自己的产品里设限制时,照抄竞品的数字而不理解它背后的成本方程,结果要么限太松三个月被账单打脸、要么限太死赶走用户。成本反推框架的判据:一个限制如果是纯体验/竞争决策,它应该能在不同定价档位间自由平移;如果它随订阅价格、随上下文长度、随模型大小单调变化,那它就是成本约束的投影。下文会证明:ChatGPT 与 Claude 的几乎所有限制,都通过了第二个判据。
§1 三类限制,三条成本传导链
把两家产品的限制拆成三类,每一类对应一条从底层成本到产品表面的传导链:
| 限制类型 | 产品表面现象 | 底层成本动因 | 传导机制 |
|---|---|---|---|
| Context 上限 | ChatGPT Plus 32K vs Pro 128K(4 倍差)〔2026-06〕 | KV Cache 显存随上下文线性增长(见 c05 - 算力物理定律与 KV Cache)+ attention 计算随长度超线性 | 长上下文挤占单卡并发数 → per-query 边际成本陡升 → 给低价档位设窗口上限保毛利 |
| Rate limit(消息数/时间窗) | Claude 双层:5 小时滚动窗 + 每周封顶;Opus 扣额约 Sonnet 3 倍 | 每条 message 是一次真实推理,烧真金白银的变动成本 | 固定月费 ÷ 重度用户调用量 = per-message 可承受成本 → 用滚动窗口限流把 P99 重度用户的成本封顶 |
| 订阅分层 | Free / Plus($20) / Pro/Max($100/$200) / API 按量 | 不同用户的调用分布差异巨大(长尾极重) → 单一定价必亏在重度用户上 | 用价格歧视把成本分布切片:轻度用户补贴、重度用户自付、极重度用户赶去 API 按量计费 |
这三条链共享同一个根:AI 产品的变动成本随用量近乎线性增长,SaaS 那套”边际成本≈0、可以无限给量”的直觉在这里彻底失效(见 A01 成本概念史与口径辨析、A02 成本对象层级辨析·per-token per-query per-task per-user per-seat)。一个 Notion 用户多写 10 倍文档,Notion 的边际成本几乎不变;一个 ChatGPT 用户多发 10 倍消息,OpenAI 的 GPU 成本就真的多烧 10 倍。限制,就是这个线性成本曲线在固定月费天花板下的必然产物。
§2 Context 上限:显存物理如何变成产品窗口
理论窗口和”你订阅档位实际能用的窗口”是两回事,这个 gap 就是成本的指纹。ChatGPT 是最干净的标本:同一批模型,Plus($20/月)的 context window 是 32K token,Pro($200/月)直接翻 4 倍到 128K〔以2026-06口径,来源:OpenAI/IntuitionLabs ChatGPT Plans Comparison 2026;具体值随版本变〕。注意——能力同源,窗口差 4 倍,差的不是模型,是谁为长上下文的显存埋单。Claude 侧同理:模型理论窗口(Sonnet/Opus 系列 200K token 级、企业/API 档更高)远大于消费订阅里舒适可用的有效长度〔具体档位有效窗口·待核实〕。消费级订阅里实际可用的窗口被压到理论值的一个零头——这不是产品藏一手,是因为:
- KV Cache 显存是硬约束:c05 - 算力物理定律与 KV Cache 给出过量级——一个 70B 级模型缓存 100K token 量级的 KV Cache 就要吃掉数十 GB 显存。上下文每翻倍,单个会话占用的显存翻倍,一张卡能同时服务的并发会话数就减半。并发数减半 = 同样硬件服务的用户数减半 = per-user 摊销的固定成本翻倍。
- attention 计算随长度超线性:c05 - 算力物理定律与 KV Cache 区分的 Prefill/Decode 两阶段里,长 prompt 的 Prefill 是算力密集的,长上下文让首 token 延迟和算力成本都非线性上升。
于是 context 上限就是一个成本最优化问题的解:在”给低价档位多大窗口”和”一张卡能塞多少并发用户”之间求毛利最大。$20 档位给 200K 全窗口,意味着每个会话独占大量显存、并发崩塌、毛利转负——所以低价档位的实际窗口必然被压。这也解释了为什么 API 按量计费可以给满窗口:API 用户为每个 token 付费,长上下文的成本直接转嫁给调用方,厂商没有毛利风险,自然不必限窗口。同一个模型,订阅档限窗口、API 档放窗口——窗口大小不由模型能力决定,由谁承担成本决定。
[!note] Prompt Caching 如何松动这个约束 这条成本链不是铁板。Prompt Caching 让重复的长 system prompt / 长上下文前缀以折扣价复用——Anthropic 公开机制为缓存读取 0.1× 输入价(90% 折扣),缓存写入 1.25×(5 分钟 TTL)或 2×(1 小时 TTL)〔来源:platform.claude.com Prompt Caching 文档 2026〕,相当于把”长上下文的固定开销”摊薄。注意它不是免费午餐:写入有溢价,5 分钟档要 ≥2 次读取、1 小时档要 ~12 次读取才回本〔同源〕,低命中场景反而倒亏。这是为什么 2024 年各家相继上线 Prompt Caching 后,长上下文产品的经济性明显改善(见 A03 Token Economics 精算、G02 成本代际演化详解)。但它只对前缀可复用的场景有效,对每次都全新的长对话无能为力——所以 context 上限松动了,没有消失。
§3 Rate limit:固定月费除以重度用户的算术
Rate limit 是三类限制里最直接的成本投影,因为它锁的就是变动成本本身。逻辑链极简:订阅是固定月费,每条消息是变动成本,重度用户的调用量是长尾分布。把月费摊到一个重度用户头上,能 cover 的消息数是有上限的,超过这个数,这个用户就在亏钱。Rate limit 就是把这个亏损点用滚动时间窗封住的工具。Claude 的限额结构是教科书级的标本:它用双层结构——5 小时滚动窗 + 每周封顶,5 小时窗挡突发、每周封顶保整体公平〔来源:support.claude.com “How do usage and length limits work”〕。更妙的是它直接把成本写进限额单位——同一请求,Opus 消耗约为 Sonnet 的 3 倍额度,且 Max 档在用量逼近阈值时会自动从 Opus 降级到 Sonnet〔以2026-06口径,来源:Zenken/TokenMix Claude Limits 2026〕。这个”3 倍”不是惩罚,是 Opus 单位推理成本约为 Sonnet 3 倍的成本如实定价:限额本质是给每个 token 标了一个”额度价”,贵模型多扣额度。
这里藏着 PM 最容易看走眼的一点:rate limit 卡的不是平均用户,是 P99 的极重度用户。绝大多数 Plus/Pro 用户永远碰不到上限——限额的设计目标不是”限制所有人”,而是”防止 1% 的极重度用户(跑脚本、开多窗口、做批量任务的)把整个档位的毛利吃穿”。这就是为什么限额数字看起来对普通人”绰绰有余”却总有人喊叫——喊叫的正是那 1%。从成本视角,这是用限流替代涨价:与其把所有人的月费提高去 cover 极端用户,不如限住极端用户、让大多数人维持低价。
订阅分层(§1 表第三行)是同一逻辑的价格歧视版本:Free 用最便宜的模型/最严的限额(获客成本,见 A07 成本约束反向塑造产品 对免费额度的剖析)、Plus($20)给中档、Pro/Max($200,OpenAI ChatGPT Pro 与 Anthropic Claude Max 20x 都定在这个价位;Anthropic 还有 $100 的 Max 5x 中间档)给重度用户更高配额但收 5–10 倍价。Anthropic 官方就把 Max 描述为”每会话 5x / 20x 于 Pro 的用量”〔来源:Zenken/CloudZero 2026〕——额度倍数直接对应价格倍数,这就是成本的明牌。$200/月档位的存在本身就是成本的自白:它的潜台词是”有一类用户的真实成本就是 $20 档 cover 不住的,要么你付 10 倍、要么你去 API 按量付费”。当一个产品出现 5–10 倍价差的高档订阅,几乎可以断定:它的成本分布是重尾的,单一定价 hold 不住。
§4 判断主轴:90% 的人在 context 与 rate limit 上会搞错的四个点
这是本节的命门——四个”看起来像产品决策、其实是成本约束”的常见错位,每个都配症状→为什么会错→正确做法→真实反例。
错位一:把”限额”读成”抠门/逼氪”,而不是”unit economics 约束”
- 症状:用户/PM 抱怨”Claude 限额就是想逼我升 Max""OpenAI 越来越小气”。在面试里答”为什么限额”时回答”为了卖高档订阅”。
- 为什么会错:把结果(高档订阅卖得动)当成了原因。真正的因果是反的——是因为 $20 cover 不住重度用户的推理成本,才不得不限额并推出高档;不是因为想卖 Max 才故意限额。混淆二者,会让你误以为厂商可以随时松绑(只是不愿),从而在谈判/选型时做出错误预期。
- 正确做法:用 §3 的算术验证——把档位月费除以该用户的真实调用量,看 per-message 是否还有毛利。若月费 ÷ 重度调用量 < per-message 推理成本,限额就是数学必然,不是态度问题。
- 真实反例:AI 编程工具 Cursor 于 2025-06-16 把固定额度($20 档约 500 次”快速请求”)改成贴着真实 API 成本的 usage-based 信用池,$20 档有效请求数实际跌到约 225 次/月,多名重度用户晒出单日被扣 $10–20、一支团队的 $7,000 年费”一天内被一次正常使用耗光”,引发强烈反弹,Cursor 于 2025-07-04 公开道歉并对 6/16–7/4 间的意外扣费退款〔来源:WeAreFounders / CloudZero / Vantage Cursor pricing 2026〕。这直接证伪了”限额是可选的抠门”:以宽松额度为卖点的工具,在重度用户(跑 agent 循环、批量代码生成)烧穿成本后,最后都得限或改按量——成本曲线不答应。它同时印证错位四:Cursor 的”限额收紧”本质就是一次被成本逼出来的”变相涨价”。
错位二:以为”理论 context 窗口 = 我能用的窗口”
- 症状:看到”Claude 200K 窗口”就以为 Plus 订阅能塞 200K,或在产品方案里按模型理论窗口算容量。
- 为什么会错:理论窗口是架构能力,可用窗口是成本档位。同一模型在 API(成本转嫁调用方)和订阅(成本厂商自担)下,可用窗口可以差一个数量级——因为 §2 的显存并发约束只在厂商自担成本时才咬人。
- 正确做法:区分”模型能做到”和”这个价格档位让你做到”。评估容量时按订阅实际窗口或 API 按量成本算,绝不按理论窗口算。
- 真实反例:ChatGPT Plus 32K vs Pro 128K〔2026-06〕——同源模型、同一窗口能力,仅因订阅档不同就差 4 倍;再叠加 API 给满窗口(你付 token 钱)、消费订阅砍窗口。窗口大小由”谁付钱”决定,不由”模型多强”决定。
错位三:把 rate limit 设成”限制平均用户”
- 症状:自己做产品时,按平均用户用量设限额,或把限额当成”公平地限制每个人”。
- 为什么会错:用量是重尾分布,平均数没意义。按均值设限,要么挡不住吃毛利的 P99(设太松),要么误伤大量正常用户(设太死)。
- 正确做法:按成本分布的尾部设限——目标是封住烧穿毛利的 top 1%,同时让 99% 的用户感知不到。限额数字应来自”per-user COGS 分布”而非”平均用量”(见 R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡)。
- 真实反例:ChatGPT/Claude 的限额对普通用户长期”无感”、却总有重度用户撞墙——这正是”卡尾部不卡均值”设计成功的标志,不是 bug。
错位四:以为”涨价”和”限额”是两个独立决策
- 症状:把定价和限额当成两个团队、两个独立旋钮。
- 为什么会错:在 AI 产品里它们是同一个 unit economics 方程的两个解——给定毛利目标,你要么涨价(提高分子)、要么限额(压低分母里的成本)。两者此消彼长,不可能独立调。
- 正确做法:把”价格 × 限额”当成一个联合优化问题,先算出 per-user COGS 曲线,再在”涨价赶客”和”限额伤体验”之间找毛利最优点(这正是 E03 一个 RAG Agent 产品的 unit economics 拆解 和 R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡 要你亲手算的)。
- 真实反例:当模型降价/效率提升时,厂商的典型动作是放宽限额而非降订阅价——因为放宽限额等于变相提价值、维持毛利。限额是定价的同义旋钮,看它怎么随成本变就知道了。
§5 产品 PM 视角补盲:成本只是约束之一,别成本一元论
工程视角容易把限制全归给成本,但产品现实里还有三层成本算不到的东西,PM 必须补上:
- 用户心理模型:“限额”的感知伤害远大于其成本逻辑——撞一次墙的用户流失风险,可能超过这个用户省下的成本。所以限额的呈现方式(优雅降级到便宜模型 vs 硬性拒绝、是否给倒计时、是否给升级路径)本身是产品设计,成本算不出最优解。Claude 把超限引导到”换个时间/升 Max”、ChatGPT 超限降级到较弱模型——这些是成本之外的体验决策。
- 滥用与安全成本:rate limit 同时是反滥用闸门——挡 API key 盗用、prompt 注入循环、批量薅羊毛。这部分动机与推理成本无关,是安全成本(呼应 Rick 的安全 PM 背景:限流是经典的 abuse 防控手段)。把限额纯归因成本,会漏掉它的安全职能。
- 合规与地域:不同地区的限额/可用性差异,可能来自数据合规、出口管制、算力配额分配,而非纯成本(呼应 Rick 的国际化 PM 背景)。
[!note] 成本是第一性约束,但不是唯一约束 A07 成本约束反向塑造产品 的主轴是”产品限制多半是成本的影子”——本节确认了这条主轴在 context/rate limit 上成立。但”多半”不是”全部”:呈现方式、安全、合规是成本解释不了的剩余项。把握分寸——用成本框架抓住 80% 的解释力,但保留对剩余 20% 的敏感,才是成熟 PM。
§6 对手框架回应:接受”限额是产品策略”的合理内核 + 标边界
业界反方立场(产品/增长派,典型如增长黑客视角):“限额本质是产品策略和价格锚定,不是成本约束。证据是厂商常常在竞争压力下临时放宽限额、搞促销、节假日解锁——如果纯粹是成本约束,为什么能说放就放?$200 档位也是经典的’诱饵-锚定’定价,让 $20 显得划算,跟成本没关系。”
接受它对的部分:这个立场抓住了真东西——限额确实有价格锚定和增长杠杆的成分,§5 已承认呈现方式、竞争节奏是成本算不出的产品决策;$200 档位确实有锚定 $20 的心理作用;竞争压力下的临时放宽确实发生过。把限额说成”纯物理成本、毫无策略”是错的。
但标注本节坚持的边界与赌注:(1) 临时放宽限额恰恰证明而非证伪成本约束——能放宽的前提是模型降价/效率提升先降低了 per-message 成本(成本约束松了,策略空间才打开);放宽是成本下降的因变量,不是独立于成本的自由决策。看放宽的时机:几乎都跟在一次效率提升/降价之后。(2) $200 档位的锚定作用是真的,但它能锚定在 $200 而不是 $50,是因为重度用户的真实成本就在那个量级——锚定定价要奏效,锚点本身得贴着成本,否则用户用脚投票去 API。(3) 我的赌注:在推理变动成本占 COGS 主导的这个时代窗口内(约 2024–2027),成本约束是限额的主导因子,产品策略是约束内的微调。这个赌注的失效条件见下——若推理成本趋近于零,策略派就赢了。
§7 跨域呼应:Jevons 悖论——为什么”窗口变大、限额放宽”不会让这个问题消失
调度 Jevons 悖论(W.S. Jevons《The Coal Question》1865:燃煤效率提升反而增加了煤的总消耗)。直觉上,模型降价 + 上下文窗口变大 + 限额放宽,应该让”成本-限制耦合”这个问题逐渐消失——成本便宜了,还限什么?
Jevons 给出的反直觉判断:单位成本下降会刺激消耗暴涨,总账单常不降反升。具体到本节:(1) 窗口从 8K 涨到 200K,用户不会只填 8K——他们会塞满整个窗口(贴整本文档、整个代码库),单次 query 的成本不降反升;(2) 限额放宽后,用户的调用频率和上下文长度会主动膨胀去填满新额度;(3) 更便宜的 token 催生了 agent / 长链推理 / 多轮自动化这些重度消耗的新用法,把省下的钱又花回去。所以 context 上限和 rate limit 不会随降价消失,只会随消耗膨胀重新设定平衡点——这正是为什么”等模型降价就行”是错的(呼应 G01 推理成本代际谱系总图 §0 与 A07 成本约束反向塑造产品 的反共识立场)。Jevons 把”限制是临时不便、迟早消失”重诊为”限制是消耗与成本博弈的稳态,永远存在、只换位置”。
[!note] failure scenario(本节判断的失效边界) 本节”限制 = 成本约束投影”的判断,在推理成本占客单价比例极低的场景失效——例如面向法律/金融的高客单价 B2B 工具(订阅几千美元/月、推理成本占比 <5%),此时限额若存在,主导因子是合规/SLA/座位定价而非推理成本,强行用成本反推会误判。判据回到 §0:若限制不随上下文长度/调用量单调变化,它就不是成本投影。另一失效边界:若未来推理成本趋近于零(算法+硬件红利远未耗尽),§6 的”成本主导”赌注失效,限额退化为纯策略——但 Jevons 提示这一天比直觉来得晚。
§8 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试桌:被问”为什么 ChatGPT/Claude 要限额/限窗口”,不要答”为了卖高档订阅”(错位一)。答:“这是 unit economics 约束的投影——$20 月费除以重度用户的真实推理成本,per-message 毛利会转负,所以必须用 rate limit 封住尾部用户、用 context 上限控制显存并发;高档订阅和 API 按量是把不同成本档的用户分流。限制随上下文长度和调用量单调变化,证明它是成本投影而非纯策略。“30 秒讲完,立刻显出”算过账”的专业度。
- 选型/在岗:评估”用 ChatGPT/Claude 订阅 vs API”时,不要按理论窗口算容量(错位二)——订阅档的实际窗口和限额才是你团队真正能用的;重度/批量场景大概率要走 API 按量(成本可控、窗口放开),轻度场景订阅更划算。把”限额会不会卡住我的 workflow”作为选型硬指标。
- 复现台/自己做产品:设自己产品的限额时,按 R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡 先算 per-user COGS 分布,按尾部而非均值设限(错位三),把”价格 × 限额”当联合优化(错位四)。用 R01 最小可运行·Token 成本计算器 把”一个重度用户一个月烧多少”算成具体数字,再决定限额卡在哪。
§9 与已有节点的关系
- 对照 c05 - 算力物理定律与 KV Cache(深化 + 落地):c05 给出 KV Cache 的物理公式与显存量级、Prefill/Decode 两阶段瓶颈;本节不复述这些物理事实,而是把它钉进真实产品——把”KV Cache 显存随上下文线性增长”翻译成”为什么你的 Plus 订阅窗口比理论值小”。c05 回答”显存物理是什么”,E01 回答”这个物理如何变成你看到的产品限制”。
- 对照 A07 成本约束反向塑造产品(实例验证):A07 是抽象主轴(“产品限制是成本的影子”),E01 是它的两具真实标本——用 ChatGPT/Claude 的 context/rate limit/订阅分层证明主轴成立,并补上 §5 的”成本一元论”边界。
- 对照 A02 成本对象层级辨析·per-token per-query per-task per-user per-seat(应用):A02 辨析五种计量口径,E01 把”per-message 成本 vs per-user 月费”这对错配落到限额的具体算术上。
- 对照 Prompt Caching(机制接入):本节用 Prompt Caching 解释 context 成本链如何被松动,但不复述其折扣机制细节(在 A03 Token Economics 精算)。
- 对话 E03 一个 RAG Agent 产品的 unit economics 拆解 / R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡:E01 剖”别人的产品如何被成本限制”,E03/R03 教”你自己的产品如何算这笔账”,互为正反面。
§10 关联节点
核心(必读)
- c05 - 算力物理定律与 KV Cache(context 上限的显存物理根因)
- A07 成本约束反向塑造产品(本节验证的判断主轴)
- A02 成本对象层级辨析·per-token per-query per-task per-user per-seat(per-message vs per-user 口径)
- A03 Token Economics 精算(input/output 价差、Prompt Caching 折扣)
- Prompt Caching(松动 context 成本链的机制)
- R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡(按尾部设限的算账工具)
延伸(可选)
- A01 成本概念史与口径辨析、S01 AI 产品成本结构分层剖面、G01 推理成本代际谱系总图、G02 成本代际演化详解
- E03 一个 RAG Agent 产品的 unit economics 拆解、R01 最小可运行·Token 成本计算器
- m209 - 推理成本控制手册、m202 - 工程选型决策矩阵、KV Cache、多模型分层
- Claude Sonnet、DeepSeek、Test-Time Compute
- 跨域/方法论:范式、Polanyi 默会知识与提示工程的认识论张力、0117社会学、AI概念滥用反思、AI PM 知识图谱·总索引
- 专题总览:_成本工程系统化专题·总览
§11 修订日志
- R0(2026-06-07,初稿):按宪章 §4 十一段骨架成稿。§0 做”成本反推 vs 产品体验”框架辨析并给判据(限制随成本单调变化即为成本投影);§1 三类限制三条成本传导链表;§2 显存物理→context 窗口的成本最优化解释(含 API 放窗口/订阅砍窗口对照);§3 rate limit = 固定月费÷重度用户的算术 + “卡尾部不卡均值”;§4 判断主轴四错位(每个配症状→为什么错→正确做法→真实反例四件套);§5 PM 补盲(用户心理/安全/合规三层成本算不到的剩余项,呼应 Rick 安全+国际化背景);§6 对手框架回应(增长派”限额=纯策略”,接受锚定/竞争节奏成分 + 标边界”放宽是成本下降的因变量”+ 给赌注与失效条件);§7 Jevons 悖论跨域呼应(窗口变大/限额放宽不会消解问题)+ failure scenario(高客单价 B2B 场景失效);§8 面试/选型/复现三落地;§9 与 c05/A07/A02/Prompt Caching/E03 显式升级对照(深化+落地,不复述 c05 物理事实);§10 关联节点分核心/延伸。
- R1(2026-06-07,grounding pass):WebSearch 接地,把 R0 的多数〔待核实〕升级为带来源带日期的硬数字:①ChatGPT Plus 32K vs Pro 128K context window(来源:OpenAI/IntuitionLabs ChatGPT Plans 2026)——成为§2/§1表/错位二的核心实证;②Claude 双层限额(5 小时滚动窗 + 每周封顶)+ Opus 扣额约 Sonnet 3 倍 + Max 自动降级 Opus→Sonnet(来源:support.claude.com / Zenken / TokenMix 2026)——成为§3的核心实证,“3 倍扣额 = 成本如实定价”是新增判断;③Anthropic Prompt Caching:读 0.1×(90% 折扣)、写 1.25×(5min)/2×(1h)、5min 档 ≥2 读回本(来源:platform.claude.com 文档 2026)——升级§2 Prompt Caching note,并补”非免费午餐/写入溢价”反例;④订阅档价位 Free/$20 Plus/$100 Max5x/$200 Pro·Max20x,额度倍数对应价格倍数(来源:Zenken/CloudZero 2026)——升级§3;⑤Cursor 2025-06-16 从固定 500 请求改 usage-based($20 档有效 ~225 次/月)、团队 $7,000 年费一天耗光、2025-07-04 公开道歉退款(来源:WeAreFounders/CloudZero/Vantage 2026)——把错位一反例从〔待核实〕升级为带时间线的实锤,并交叉印证错位四”限额=变相涨价”。遗留待核实项(2 项):①Claude 各消费订阅档的具体有效 context 窗口数(官方未给单一确数,标〔待核实〕);②Claude Max 各档每 5 小时/每周的精确消息配额(第三方估算差异大、官方按动态负载浮动,仅用结构性描述,未硬编具体条数)。所有具体数字均带来源与 2026-06 口径标注,无硬编为永久确证。