G02 成本代际演化详解
G02 成本代际演化详解
本节点要解决的问题是:G01 推理成本代际谱系总图 给了一屏看全的六代接力图,但 PM 在选型会上真正要回答的是更细的一题——“这一代降本技术,今天(2026)到底处在它生命周期的哪个位置?是红利刚开始释放、还是天花板已经在眼前?我该现在押注、还是等下一代?” 视角是「逐代生命周期定位」——对 Dense→MoE→量化→投机解码→缓存→端侧每一代,展开它的代表技术/产品、推动力、瓶颈、被下一代如何超越、2026 当下位置五件事,并给每代一个”2026 还值不值得为它付迁移成本”的可操作判断。G01 是地图,G02 是给地图上每个点标海拔与天气。
§0 为什么是”逐代生命周期”而不是”再画一遍谱系”
G01 已经把六代排成一条接力链,并用库恩/拉卡托斯双尺破了”线性进步史”。本节点不重复那条链,也不重复那四个判断坑——那是 G01 的命门。G02 要补的是 G01 故意留白的一格:每一代降本技术自己也有生命周期(萌芽→红利释放→逼近天花板→被接力),而 PM 的迁移决策完全取决于”这一代现在在自己生命周期的哪一段”。
为什么这个视角值得单开一节,而不是塞进 G01?因为两个判断错误的来源完全不同。G01 防的是”把异质机制压成一条曲线、线性外推”(跨代误判);G02 防的是”在一代红利已经见顶时还重仓押它、或在一代红利刚开始时就嫌它不成熟而错过”(代内时机误判)。前者是地图问题,后者是择时问题。把成本工程当投资来类比:G01 告诉你”市场由几个不连续的板块轮动构成、别用单一指数外推”,G02 告诉你”每个板块此刻在自己的周期高点还是低点”。这正是宪章 §7 要求的”接受业界反方 + 标边界”里那个 PM 最缺的维度——不是”该不该降本”,而是”该为哪一代降本、在什么时点、付多少迁移成本”。
[!note] 一个贯穿全节的工具:每代的”生命周期标签” 下文每一代都给一个标签:🌱萌芽 / 🚀红利期 / ⚠️见顶期 / 🧱基线化(已成默认基础设施、不再是差异化降本手段)。这个标签不是技术成熟度,是**“今天为它付迁移成本的回报率”**——基线化的代际你不付迁移成本也躲不掉(它已是标配),见顶期的代际付了迁移成本回报递减,红利期的代际才是迁移投入产出比最高的。
§1 第0代 · Dense 稠密——🧱已基线化的”成本原罪”
| 维度 | 内容 |
|---|---|
| 代表技术/产品 | 标准 Transformer 全参数激活;GPT-3、GPT-4(8K/32K)、Llama-2/3 稠密档、多数 7B–13B 小模型 |
| 推动力 | 简单、可控、训练/推理路径成熟,无路由不确定性 |
| 瓶颈 | 参数量与每 token 算力(FLOPs)线性绑死——模型越强越贵,没有腾挪空间 |
| 被下一代如何超越 | MoE 把”总参数(能力)“与”激活参数(算力)“解耦,打破了这条线性绑定 |
| 2026 当下位置 | 🧱基线化。在大模型旗舰档已基本让位于 MoE,但在小模型、端侧、质量敏感场景仍是默认且更优的选择 |
详解:Dense 不是”被淘汰的旧技术”,而是成本谱系的度量原点——后面五代的降本幅度,全是相对”如果用 Dense 会花多少”来计的。它的 2026 位置有个反直觉之处:在最贵的旗舰档它被 MoE 取代了,但在最便宜的小模型档它反而是赢家。原因是 MoE 的两个代价(显存常驻、路由不确定性)在小规模下摊不薄,而小模型本来就便宜,没必要为省那点激活算力去扛 MoE 的固定成本和工程复杂度。
反例(破”Dense 已过时、新项目都该上 MoE”):一个做端侧/边缘部署的团队,若不假思索照搬”旗舰都用 MoE”的结论去选一个 MoE 小模型,会发现它在单设备低并发下因显存常驻反而比同档 Dense 更贵、更难部署。Dense 在小规模是基线也是上限,不是落后选项。 这一条接 c06 - 架构演进:Dense MoE SSM Hybrid 的”MoE 显存门槛高但算力低的矛盾”,G02 取其成本侧时点含义:Dense 的生命周期不是”结束”,是”按规模分裂”——旗舰档退场、小模型档留任。
§2 第1代 · MoE 混合专家——🚀仍在红利期的”参数-算力解耦”
| 维度 | 内容 |
|---|---|
| 代表技术/产品 | DeepSeek-V3/R1、Mixtral 8x7B/8x22B、Qwen MoE、传闻中的 GPT-4 MoE 结构〔结构未官方确认·待核实〕 |
| 推动力 | 激活参数 ≪ 总参数,让旗舰能力以接近小模型的边际算力推理;是 DeepSeek 能把价格压到极低一档的架构底子(V3 发布期 input $0.27 / output $1.10;2026-06 deepseek-chat/V3 标准价约 $0.23/$0.34,V3 已公告 2026-07-24 弃用迁向 V4,详见 G01 §1〔截至 2026-06,需定期复查〕) |
| 瓶颈 | 算力降了显存没降——全部专家须常驻显存待命,固定成本(显存/卡数)反而更高;专家负载不均、路由稳定性 | | 被下一代如何超越 | 量化(第2代)压缩 MoE 的显存常驻成本;MLA 等机制压缩 KV Cache 显存——两者补的正是 MoE 没解决的”显存账” | | 2026 当下位置 | 🚀红利期,尚未见顶。开源旗舰几乎全面 MoE 化,且与量化叠加后固定成本门槛在快速下降 |
详解:MoE 是 G01 六代里 2026 时点迁移投入产出比最高的一代——因为它正处在”红利已被验证、但远未饱和”的甜区。2024 底 DeepSeek-V3 把”671B 总参数 / 37B 激活(256 路由专家 + 1 共享专家、每 token 激活 top-8 + 共享)“做成公开标本(来源:DeepSeek-V3 Technical Report, arXiv:2412.19437, 2024-12),证明了解耦路线在旗舰档的工程可行性;2025–2026 这条路线还在沿”更大总参数 / 更稀疏激活 / 更细粒度专家”继续走,红利没耗尽。
但 MoE 的瓶颈是成本被偷偷换了类型而不是消除——这是 G02 要补 G01 的细节。G01 说了”算力降、显存没降”,G02 要钉死它对 PM 决策的含义:MoE 把变动成本(按调用量付的算力)换成了固定成本(无论调不调用都常驻的显存)。 这个置换有个临界点:当你的并发量足够高、固定的显存成本能被海量请求摊薄时,MoE 极便宜;当你的部署是小规模/低并发/突发流量时,显存常驻摊不薄,单位成本可能比同档 Dense 更贵。
反例(破”MoE = 更便宜的架构”,总览对手清单第 5 条):一个 To B 私有化部署场景,客户日活只有几百、请求稀疏,团队按”MoE 更便宜”的公论上了一个 MoE 旗舰,结果为了让 671B 专家常驻,租了远超实际算力需求的显卡,闲置率极高,单位成本反而比一个量化后的 Dense 70B 高出数倍。MoE 的便宜是”高并发摊薄固定成本”换来的,不是普适的。 详见 A04 推理成本三角·模型大小 延迟 质量(MoE 用固定成本换变动成本的三角)与 S02 降本手段流派对照矩阵。这也接 m202 - 工程选型决策矩阵 的隐性成本维度:MoE 的隐性成本是”必须高并发才划算”这条使用前提,选型时要先问”我的流量配得上 MoE 吗”。
§3 第2代 · 量化——⚠️服务端见顶、端侧仍是红利的”精度换显存”
| 维度 | 内容 |
|---|---|
| 代表技术/产品 | INT8/INT4 推理(AWQ、GPTQ)、QLoRA 微调;2025 服务端新增量 FP8 训练/推理逐渐成为标准〔趋势判断·待核实〕;端侧 INT4 是手机/PC 跑模型的前置条件 |
| 推动力 | 权重 FP16→INT8/INT4,显存占用与带宽需求成比例下降;是端侧推理(第5代)的前置条件 |
| 瓶颈 | 质量损失非线性——INT8 多数场景损失 <1%、INT4 AWQ 约 2–5%〔引自 c07 - 量化 Quantization 与端侧部署·待核实〕,但在长程依赖/精确计算/低资源语言上非线性放大 |
| 被下一代如何超越 | 量化本身不被”超越”——它是端侧(第5代)的使能技术,关系是依赖不是替代 |
| 2026 当下位置 | ⚠️服务端见顶 / 端侧红利期。服务端 INT8/FP8 已近基线,再压精度边际收益递减且质量风险陡升;端侧因硬件 NPU 升级,INT4 仍在释放红利 |
详解:量化是六代里生命周期最”分叉”的一代——同一个技术,在服务端和端侧处于完全不同的周期段。服务端这边,从 FP16 到 INT8 是一次大红利(显存腰斩、质量几乎无损),再到 FP8 训练把红利又续了一程;但继续往 INT4 及以下压,服务端的回报急剧递减——因为服务端有充足显存、不缺那点空间,却要承担非线性质量损失,划不来。所以服务端量化已经见顶:INT8/FP8 成了默认配置,不再是差异化降本手段。
端侧则相反。手机/PC 的显存是硬约束,INT4 不是”可选优化”而是”能不能跑”的门槛。随着 ANE / 高通 NPU〔待核实具体型号〕等专用硬件迭代,端侧的量化红利还在释放——同一个 INT4 模型,去年的 NPU 跑得慢、今年的跑得流畅,这部分红利由硬件而非算法驱动,节律更接近摩尔定律(可适度外推,对照 G01 §4)。
反例(破”量化 = 免费午餐”,总览对手清单第 6 条 / confirmation-bias 第 2 条):在质量敏感任务(医疗、法律、代码精确性)上,“降本 50–70%“的代价可能是产品不可用。INT4 量化的法律问答模型在引用具体条款编号时出错率上升,这种错误在 demo 里看不出来、在生产里是合规事故。量化便宜的前提永远是”这个场景容忍这点损失”,而非技术本身免费。 这接 A06 端侧与云端成本重构(量化作为端侧-云端权衡的支点)。
§4 第3代 · 投机解码——🚀红利期但高度任务依赖的”小模型省串行步”
| 维度 | 内容 |
|---|---|
| 代表技术/产品 | Speculative Decoding、Medusa、EAGLE、draft-target 双模型方案;多数主流推理引擎(vLLM 等)已内建 |
| 推动力 | 用便宜 draft 小模型一次猜多个 token、大模型并行验证;c05 给的吞吐增益约 2–3×〔引自 c05 - 算力物理定律与 KV Cache·待核实〕,且不损质量(验证保证输出分布一致) |
| 瓶颈 | 收益上限由 draft 接受率决定——draft 太弱接受率低白算、太强本身就贵 |
| 被下一代如何超越 | 不被超越,与缓存(第4代)正交叠加;属于”吞吐侧”优化,与”显存侧”的量化/MoE 不冲突 |
| 2026 当下位置 | 🚀红利期。已从研究走进主流推理引擎成为标配选项,但收益高度任务相关,未饱和也未普适 |
详解:投机解码是六代里最”干净”的一代——它是少数不牺牲质量的降本手段(输出分布与原模型一致),所以没有”质量代价”这个其他代际都有的拖累。它的 2026 位置是”已进入生产工具链的标配选项、但默认不一定开”,因为它的收益不是固定的 2–3×,而是随任务分布剧烈漂移。
这正是 G02 要补的代内择时细节:投机解码的”红利期”是按任务而非按时间展开的。在 draft 与 target 分布接近的任务(常见对话、代码补全、模板化生成)上,接受率高、加速明显;在 draft 与 target 分布差异大的任务(长尾领域、强约束生成、低资源语言)上,接受率低、加速比逼近 1×,反而因 draft 的额外前向开销倒亏。
反例(破”投机解码普适加速 2–3×”):把一个为通用对话调好的投机解码配置直接搬到一个强格式约束的结构化抽取任务(要求严格 JSON schema),会发现 draft 模型频繁猜错被拒、接受率掉到很低,整体延迟不降反升。“2–3ד是特定任务的实测值,不是常数——和 G01 强调的”$1,620/百万请求是特定场景值”是同一类认识论纪律(confirmation-bias 第 5 条的精神)。PM 选型时别把它当一个普适加速开关,要按自己的任务分布实测接受率。
§5 第4代 · 缓存——🧱KV基线化 / 🚀Prompt与语义缓存红利期
| 维度 | 内容 |
|---|---|
| 代表技术/产品 | KV Cache(推理标配,c05 给的量级 Llama-3-70B 100K tokens ≈ 32.8 GB〔引自 c05·待核实〕,MLA 等机制进一步压缩);Prompt Caching(Anthropic:缓存读 = 0.1× input 即 90% 折扣;5 分钟 TTL 写入 = 1.25× input、1 小时 TTL 写入 = 2× input;来源:platform.claude.com Prompt caching 文档,2026-06);语义缓存(相似 query 返回历史答案) |
| 推动力 | 用”不重算”省 prefill;长 system prompt + 高频调用场景收益巨大——m209 实测某配置约 $1,620/百万请求节省〔引自 m209 - 推理成本控制手册·特定场景值〕 |
| 瓶颈 | 命中率决定一切,且写入有溢价——Prompt Caching 写入比普通调用贵,TTL 内不复用就倒亏;语义缓存命中率受 query 多样性硬限 |
| 被下一代如何超越 | 不被超越,与端侧(第5代)正交;KV Cache 已是任何推理的物理基础 |
| 2026 当下位置 | 🧱KV Cache 基线化 / 🚀 Prompt 与语义缓存仍在红利期——后两者从 2024 的新特性变成各家标配,但用得好不好差异巨大 |
详解:缓存这一代要拆成两层看,否则会误判时点。KV Cache 是基线化的——它不是”可选降本手段”,是自回归推理的物理必需,你不用它根本跑不动长上下文,所以它不构成差异化(大家都有,不存在”上不上 KV Cache”的选型)。真正还有红利、还构成 PM 决策空间的是 Prompt Caching 和语义缓存:它们从 2024 年从无到有、迅速成为各家标配(这是总览 §1 列为”格式塔切换”证据之一),但会不会用、用在哪、命中率调到多少,团队间差异极大。
G02 要补 G01 的细节是:缓存的红利不是技术给的,是场景结构给的。同一个 Prompt Caching 机制,在”长 system prompt + 高频复用”场景下是金矿,在”短 prompt + 高多样性”场景下是负债(写入溢价 + 低命中)。所以缓存的”2026 位置”对每个产品都不一样——它取决于你的调用模式,不取决于技术成熟度。
反例(破”缓存稳赚”,总览对手清单第 7 条 / confirmation-bias 第 2、5 条):一个 C 端问答产品,query 高度多样、几乎不重复,团队上了激进语义缓存想省钱,结果命中率极低、还因相似但不相同的 query 返回了近似但错误的答案,省的钱远小于答错带来的信任损失。注意 Prompt Caching 的写入是有溢价的(5 分钟 TTL 写入 1.25× input、1 小时 TTL 写入 2× input),TTL 内复用次数不够就净亏——折扣只对”高频复用”成立。$1,620/百万请求是 m209 特定场景(长 system prompt 高频知识库问答)的实测值,不是通用常数——换场景必须重算。详见 A03 Token Economics 精算(缓存折扣机制)与 Prompt Caching、多模型分层。
§6 第5代 · 端侧——🌱萌芽到早红利的”把推理挪出云端”
| 维度 | 内容 |
|---|---|
| 代表技术/产品 | Apple Intelligence(端侧 + 私有云分流)〔详见 E02 Apple Intelligence 与端侧推理成本剖解〕、手机 NPU(ANE / 高通骁龙〔待核实型号〕)、Gemini Nano、本地 Llama/Phi 量化小模型 |
| 推动力 | 边际推理成本→0 + 隐私(数据不出设备);是 A06 端侧与云端成本重构 的核心 |
| 瓶颈 | 硬件上限锁死模型规模——端侧塞不下 70B/671B,能跑的只是被量化的小模型,能力有天花板 |
| 被下一代如何超越 | 暂无明确”第6代”——若未来出现新架构再次数量级解耦成本,会接力;当前端侧是谱系的”现役末端” |
| 2026 当下位置 | 🌱萌芽到早红利期。硬件(NPU)和模型(小模型能力)双轮还在快速爬坡,是六代里最不成熟、也最不该现在重仓的一代 |
详解:端侧是谱系的”现役末端”,也是 PM 最容易误判时点的一代——因为它的叙事最性感(“云端成本归零""数据隐私""设备即算力”),容易让人以为它已经红利期,其实它还在萌芽到早红利的爬坡段。它的两个驱动轮(NPU 硬件、端侧小模型能力)都还在快速变化,意味着今天为端侧做的工程投入,明年的硬件/模型可能让它过时——这是萌芽期技术的典型风险:早投入大概率要返工。
G02 要补 G01 的细节是端侧的成本账不是”省了 API 费”那么简单——它把成本从”服务端可计量的 API 账单”转移到了”分散在用户设备上的隐性 TCO”:设备适配工程、模型在不同芯片上的回归测试、端侧质量回退后的云端兜底逻辑、用户设备老旧导致的体验分裂。这些成本没有一张统一账单,但真实存在。
反例(破”未来推理都在端侧、云端会归零”,总览对手清单第 2 条 / confirmation-bias 第 3 条):把端侧当云端的替代而非分流,会在”用户问了一个复杂问题、端侧小模型答不了”时无路可走——要么强行用小模型给出低质答案,要么仍要回落云端,于是云端成本根本没归零,反而多了端云切换的工程复杂度。端侧是分流不是替代,大模型短期必须留云端。 这接 A06 端侧与云端成本重构 与 E02 Apple Intelligence 与端侧推理成本剖解。
§7 判断主轴:90% 的人给一代降本技术”定位 2026 位置”时会犯的四个错
G01 §3 的四坑防的是跨代误判(把曲线线性外推、把开新档当降本等)。G02 的判断主轴防的是另一类——代内择时误判:在错误的生命周期段做错误的迁移决策。每个给【症状 → 为什么会错 → 正确做法 → 真实反例】四件套。
坑 1:把”基线化”误当”还有红利”,为已是标配的东西付差异化溢价
- 症状:在选型 deck 里把”我们用了 KV Cache / INT8 量化”当成降本亮点写进去,或为一个号称”支持 KV Cache”的方案付溢价。
- 为什么会错:基线化的代际(KV Cache、服务端 INT8)已经是人人都有的地板,不构成差异化。把地板当卖点,等于把”我们的车有四个轮子”写进竞品对比。
- 正确做法:区分基线化代际(不付迁移成本也躲不掉、不构成选型差异)和红利期代际(迁移投入产出比高、值得主动押注)。只为后者付钱。
- 真实反例:一个团队评估两个推理方案,A 重点宣传”支持 KV Cache 和量化”、B 重点宣传”细粒度专家路由 + 投机解码自适应”。团队被 A 的”全面”打动,其实 A 列的全是 2026 的基线配置,B 才有红利期的差异化能力——选型被”地板当卖点”误导。
坑 2:在红利期嫌它”不成熟”而错过最佳迁移窗口
- 症状:“MoE 路由不稳、投机解码收益不定,等它成熟了再上。”
- 为什么会错:红利期的特征就是”已验证可行、但远未饱和”,等它”完全成熟”等于等它基线化——那时红利已被吃光,迁移只是被动跟上而非获得优势。红利期的不成熟是迁移成本最低的窗口(先行者还能影响工具链)。
- 正确做法:红利期代际(2026 的 MoE、端侧早红利、Prompt/语义缓存)应主动小步押注 + 实测,而非等待。用 R02 中型·模型路由 + 语义缓存 降本实验 在自己场景先验证再放大。
- 真实反例:2024 有团队认为 MoE 路由太不稳定、坚持 Dense 旗舰,等到 2025 MoE 工程成熟、对手已用 DeepSeek 档把成本压到自己的几分之一时再迁移,不仅丢了一年成本优势,还要在对手已跑通的路上付同样的迁移成本——迟到没省事,只是少赚。
坑 3:把”见顶期”的代际继续重仓压榨
- 症状:“服务端量化从 INT8 再压到 INT4 还能再降一半显存,继续压。”
- 为什么会错:见顶期代际的边际收益急剧递减、边际风险陡增。服务端从 INT8 往 INT4 压,省的显存它本来就不缺,换来的却是非线性质量损失——投入产出比已经倒挂。
- 正确做法:见顶期代际锁定在它的甜区(服务端量化锁 INT8/FP8),把降本预算转移到还有红利的代际(MoE 摊薄、缓存命中率优化、端侧分流)。
- 真实反例:某服务端团队执着于把旗舰推到 INT4 想再省显存成本,长程推理任务的质量肉眼可见下滑、用户投诉上升,省下的那点显存成本远不抵质量损失——在见顶代际过度压榨,是把”还能降”误当”值得降”。
坑 4:把”萌芽期”的代际当成熟方案重仓押注
- 症状:“端侧是未来,我们 all-in 端侧,砍掉云端预算。”
- 为什么会错:萌芽期代际(2026 端侧)的硬件和模型双轮都在剧烈变化,今天的工程投入明年大概率要返工;且它的能力天花板(端侧塞不下大模型)使它现阶段只能做分流不能做替代。重仓萌芽期 = 押注一个还在变形的靶子。
- 正确做法:萌芽期代际做小规模探索性投入 + 保留云端主力,把它当对冲而非主力。判断”该不该现在为它付迁移成本”时,对萌芽期默认答案是”小投入、不重仓”。
- 真实反例:一个团队 2026 初为”隐私卖点”把核心功能全押端侧小模型,结果端侧模型答复杂问题质量不够、用户流失,半年后被迫回退云端重做,端侧那部分工程基本报废——萌芽期重仓的典型代价。
§8 产品 PM 视角补盲:逐代定位里看走眼的三个非工程点
工程视角看”每代技术现在多成熟”。PM 还得看三个工程视角看不见的择时坑(与 G01 §5 的三点不重复——G01 谈的是降价对定价/采购/迁移的整体反噬,这里谈的是逐代时点专属的非工程判断):
- 生命周期标签会影响”招人/团队能力”决策,不只是技术选型。押注红利期代际(MoE、端侧)需要团队有相应的工程能力储备;如果团队只会调 API、不懂推理引擎,那”红利期值得迁移”的结论对这个团队不成立——最优迁移时点是技术红利与团队能力的交集,不是技术单方面的红利期。PM 排路线图时要把”团队能不能接得住这代技术”算进去。
- 基线化代际是”合规与采购的隐性门槛”而非卖点。KV Cache、量化这些基线化能力,B 端客户的安全/采购团队会默认你有,没有反而是减分项——它们从”加分卖点”变成了”不达标就出局的及格线”。PM 在 B 端要把基线化代际当”卫生因素”(缺了扣分、有了不加分)来管理,别浪费 GTM 资源去吹它。
- 萌芽期代际的”叙事价值”可能远超它的”成本价值”。端侧 2026 的实际省钱能力有限(只能分流小任务),但”数据在你自己设备上”的隐私叙事对特定客群(隐私敏感的 B 端、受监管行业)有独立的获客价值。这时为端侧投入的理由不是降本、是 GTM 差异化——PM 要诚实区分”我押这代是为了省钱还是为了讲故事”,两者的投入产出评估标准完全不同,混淆了就会用错 KPI 衡量它。
§9 对手框架回应:接受”早押注先行者有优势”,但守住”萌芽期重仓的返工成本”边界
[!note] 对手立场:技术采用的”先行者优势”派(first-mover advantage) 创业圈与 VC 的主流叙事:在一项降本技术早期就重仓押注,能积累数据飞轮、工程经验、生态位,等技术成熟时已甩开对手——所以对端侧、对每一代新降本技术都该尽早 all-in。这是和 G01 §6”等模型降价就行”相反方向的乐观派(一个主张等、一个主张抢),G02 要回应的是”抢”这一侧。
接受它对的部分:在红利期代际上,先行者优势是真的——G02 §7 坑 2 正是这个论点的另一面:红利期主动押注 MoE/缓存确实能甩开等待者一年的成本优势。早押注红利期 = 对的。
守住的边界(本节点的赌注):
- 先行者优势只在红利期成立,在萌芽期是先行者陷阱。萌芽期(2026 端侧)技术的硬件/模型双轮还在剧烈变形,早押注积累的不是飞轮而是沉没的返工成本——你为今天的 NPU 调好的端侧方案,明年的 NPU 让它过时(§7 坑 4 的反例)。
- 路径依赖是双向的:早押注既可能形成对手难追的护城河,也可能把自己锁死在一条次优路线上(这是 A05 模型路由与 Mixture-of-models 调度的路径依赖框架——早期为省成本选的便宜模型/私有 harness 会形成数据与工程锁定,迁移成本随时间上升)。先行者优势的论述只算了护城河那一面,没算锁定那一面。
- 正确的时点函数:迁移投入 ∝ 生命周期标签——萌芽期小投入对冲、红利期主动押注、见顶期锁定甜区、基线化被动跟上。“一律尽早 all-in”是把这个分段函数压成了一个常数,和 G01 §6 批的”把代际曲线压成单一指数”是同构的错误,只是方向相反。
结论性赌注:降本代际的最优迁移策略不是”一律等”也不是”一律抢”,是按每代的生命周期标签做分段决策。 如果未来端侧硬件突然稳定下来(NPU 标准固化、端侧模型能力跃过实用门槛),端侧会从萌芽期跃入红利期,那时”早押注”才成立——这个判断的失效条件是清晰的、可观测的,不是赌一个模糊的”未来”。
§10 跨域呼应:Wright 学习曲线的”逐代分段”——为什么不能用一条学习率读六代
[!note] 调度框架:Wright 学习曲线(累计产量每翻一番、单位成本下降固定百分比) G01 §4 用摩尔定律/Wright 学习曲线做了整体类比(推理成本下降快于摩尔定律、但算法红利会饱和)。G02 把同一框架下沉到逐代:不是问”整条曲线的学习率是多少”,而是问”每一代各自的学习率是多少、现在走到学习曲线的哪一段”。这是 G01 没展开的那一格。
Wright 学习曲线的经典形态是”累计产量翻番、单位成本降一个固定百分比(学习率)“,呈现为一条逐渐放缓的下降曲线——早期陡、后期平。G02 的核心洞见是:六代降本技术不共享一条学习曲线,而是六条各自处在不同段的学习曲线的叠加。
- 基线化代际(Dense 小模型档、KV Cache、服务端 INT8)已经走到自己学习曲线的平缓尾部——再多累计产量也榨不出多少单位成本下降,学习率趋近于零。
- 红利期代际(MoE、Prompt/语义缓存、投机解码)正处在学习曲线的陡降段——累计部署量翻番仍能显著降本,这正是 §7 坑 2 说”红利期值得主动押注”的曲线依据。
- 萌芽期代际(端侧)还在学习曲线的起点附近——单位成本高、波动大,甚至还没进入稳定的下降节律(NPU 标准未固化),这是 §7 坑 4 说”萌芽期别重仓”的曲线依据。
这个分段视角给 PM 一个可操作的择时判据:把”这代值不值得现在迁移”翻译成”它在自己的学习曲线哪一段”——陡降段押注、尾部段别投、起点段对冲。它和 §9 路径依赖框架互补:学习曲线告诉你”这代还能降多少”,路径依赖告诉你”现在锁进去将来出得来吗”,两者合起来才是完整的逐代择时决策。这一段和 A07 成本约束反向塑造产品 的 Jevons 悖论再次互补——Wright 告诉你单位成本沿曲线降、Jevons 告诉你总账单可能因用量反弹而不降,逐代择时省下的单位成本要扣掉 Jevons 的反弹才是净收益。
§11 PM 决策启示:面试 / 选型 / 复现怎么用这套逐代定位
- 面试桌:被追问”具体到某代技术你怎么判断”(比 G01 的”整体趋势”更深一层),用生命周期标签答:“以 2026 为例——MoE 在红利期值得主动押注、服务端量化已见顶该锁 INT8、KV Cache 是基线不构成差异化、端侧还在萌芽期只该小投入对冲。我判断’要不要为一代降本付迁移成本’看它在自己学习曲线的哪一段:陡降段押、尾部段不投、起点段对冲。“这比”成本会越来越便宜”显出代内择时的判断力。
- 选型会:拿到一个降本方案,先用 G01 的拉卡托斯尺判”进步性还是退化性成本转移”,再用 G02 的生命周期标签判”这代现在值不值得迁移、付多少”,最后去 S02 降本手段流派对照矩阵 核质量代价与适用边界。两层尺配合:G01 防跨代外推、G02 防代内择时。
- 复现台:用 R01 最小可运行·Token 成本计算器 对同一任务跑”基线配置 vs 红利期技术配置”两套成本,亲手验证某代降本对你的场景的真实降幅与质量回退;红利期代际(路由/缓存)进一步用 R02 中型·模型路由 + 语义缓存 降本实验 实测,确认它在你的调用模式下是不是真红利。
§12 与已有节点的关系
本节点是 G01 的逐代下沉,对既有单维节点做的是”时点定位 + 择时判断”而非复述——把 c05/c06/c07/m209 里的降本机制,按”代表技术/推动力/瓶颈/被超越/2026 位置”五件套逐代展开,并给每代一个生命周期标签与迁移择时判断。
- 与 G01 推理成本代际谱系总图:显式分工不重叠。G01 是总图(六代接力链 + 库恩/拉卡托斯破线性进步 + 四个跨代误判坑 + 摩尔定律整体类比);G02 是逐代详解(每代五件套 + 生命周期标签 + 四个代内择时坑 + Wright 学习曲线逐代分段)。G01 防跨代外推、G02 防代内择时,两节点的判断主轴正交。不复述 G01 的六代机制原理,只取其骨架做时点定位。
- 对 c06 - 架构演进:Dense MoE SSM Hybrid:c06 讲架构能力取舍,G02 取其”MoE 显存门槛”做第1代的2026 红利期定位与”变动成本换固定成本”的择时含义。不复述 c06 的架构原理。
- 对 c07 - 量化 Quantization 与端侧部署:c07 讲量化物理本质与门槛(INT4 2–5%),G02 取其做第2代,并补 c07 没强调的**“服务端见顶 / 端侧红利”的生命周期分叉**。
- 对 c05 - 算力物理定律与 KV Cache:c05 讲 KV Cache 物理公式(32.8GB)与投机解码吞吐(2–3×),G02 取其做第3/4代,并补”KV Cache 已基线化、Prompt/语义缓存仍红利期”的时点区分。
- 对 m209 - 推理成本控制手册:m209 是”怎么做降本”的工程手册,G02 是”每代降本现在该不该做、付多少迁移成本”的择时地图——把 m209 的手段清单升高到生命周期定位层。不复述 m209 的实现步骤与数字($1,620 等仅作”特定场景标本”引用并标注非普适)。
- 对 m202 - 工程选型决策矩阵:m202 讲选型隐性成本,G02 补”代际生命周期标签”作为隐性成本的时间维度——MoE 的隐性成本是”必须高并发才划算”、端侧的隐性成本是”萌芽期返工风险”。
§13 关联节点
核心(必读)
- G01 推理成本代际谱系总图(本节点的总图,逐代血肉的骨架)
- c06 - 架构演进:Dense MoE SSM Hybrid(第1代 MoE 的架构底子)
- c07 - 量化 Quantization 与端侧部署(第2代量化的物理门槛)
- c05 - 算力物理定律与 KV Cache(第3/4代:投机解码 + 缓存的物理基础)
- m209 - 推理成本控制手册(被升高的工程降本清单)
- A07 成本约束反向塑造产品(Jevons 主轴,与本节 Wright 学习曲线互补)
- S02 降本手段流派对照矩阵(每代手段的”降本×代价×场景”选型表)
- _成本工程系统化专题·总览(专题导航中枢)
延伸(可选)
- A03 Token Economics 精算(input/output 价差、缓存折扣机制)
- A04 推理成本三角·模型大小 延迟 质量(MoE 固定成本换变动成本的三角)
- A05 模型路由与 Mixture-of-models(路径依赖/锁定的降本边界)
- A06 端侧与云端成本重构(第5代端侧的成本重构)
- E02 Apple Intelligence 与端侧推理成本剖解(端侧标本)
- R01 最小可运行·Token 成本计算器(把代际定位变成肉身数字)
- R02 中型·模型路由 + 语义缓存 降本实验(红利期手段的实测)
- 量化、MoE、KV Cache、Prompt Caching、多模型分层、Test-Time Compute、Scaling Laws、Embedding、RAG
- 范式(库恩+拉卡托斯双尺,G01 已调度)
- m202 - 工程选型决策矩阵、DeepSeek、Claude Sonnet
- c09 - RAG 架构、幻觉、0117社会学、0115道德哲学-伦理学
- AI PM 知识图谱·总索引
§14 修订日志
- R0(2026-06-07,初稿):按宪章 §4 十一段骨架与总览 §3 对 G02 的 brief(逐代:代表技术/产品、推动力、瓶颈、被下代超越、2026 位置 + 强接地 + 衔接 G01 不重复)写成。与 G01 的显式分工:G01 = 总图 + 跨代误判四坑 + 摩尔定律整体类比;G02 = 逐代五件套 + 生命周期标签(🌱萌芽/🚀红利/⚠️见顶/🧱基线化)+ 代内择时四坑 + Wright 学习曲线逐代分段,判断主轴与 G01 正交。§0 框架辨析(逐代生命周期 vs 再画谱系,防代内择时误判);§1–§6 六代各一张五件套表 + 详解 + 反例 + 生命周期标签;§7 判断主轴四坑(基线当红利/红利期错过/见顶期压榨/萌芽期重仓),各带四件套;§8 PM 补盲三点(团队能力交集/基线化是卫生因素/萌芽期叙事价值,与 G01 §5 不重复);§9 对手框架”接受+边界”(先行者优势派,与 G01 的”等模型降价”反向互补);§10 跨域 Wright 学习曲线逐代分段(G01 整体、G02 下沉),与 Jevons/路径依赖互补;§11 三类落地;§12 与 G01/c05/c06/c07/m209/m202 显式升级对照(不复述);§13 核心/延伸分档关联节点(密度 ≈35)。- R1(2026-06-07,grounding pass·部分):WebSearch 核实并接地两项硬事实——①DeepSeek-V3 671B 总参数 / 37B 激活、256 路由专家 + 1 共享专家、每 token top-8 + 共享、用 MLA 压缩 KV,已加来源(DeepSeek-V3 Technical Report, arXiv:2412.19437, 2024-12),去〔待核实〕;②Anthropic Prompt Caching 缓存读 = 0.1× input(90% 折扣)、5 分钟 TTL 写入 = 1.25× input、1 小时 TTL 写入 = 2× input,已加来源(platform.claude.com Prompt caching 文档, 2026-06),去〔待核实〕,并据此强化 §5 缓存反例(写入溢价使折扣只对高频复用成立)。
仍待接地:①c05 的 32.8GB / 投机解码 2–3× / 量化 INT4 2–5%——引自既有节点 c05/c07,需复核既有节点原文未走样(本轮未重开 c05/c07);②
DeepSeek 价格 input $0.27/output $1.10 标〔以2026-06定价·待核实〕(已于 2026-06-11 P3.1 接地,见下);③FP8 训练成标准、ANE/高通 NPU 具体型号仍标〔待核实〕;④”服务端量化见顶 / 2025 同档降幅趋缓 / 端侧仍萌芽”等生命周期标签是趋势性判断,需 WebSearch 核实 2026 实际进展以校准标签(若端侧已跃入红利期则需上调标签并改 §6/§9 结论)。 - 2026-06-11 P3.1 接地修复:第1代 MoE 行”推动力”的 DeepSeek 价格由〔以2026-06定价·待核实〕升级为带来源、带时点的陈述——补”V3 发布期 $0.27/$1.10、2026-06 deepseek-chat/V3 标准价约 $0.23/$0.34、V3 已公告 2026-07-24 弃用迁向 V4”,并标〔截至 2026-06,需定期复查〕,与 G01 §1 同步纠正(原”已降至 $0.14/$0.28 = V3 现价”实为 V4 Flash 一档的误植)。来源:DeepSeek API 定价页 / pricepertoken.com / CloudZero 2026。c05 的 32.8GB KV cache 已交叉复核为 Llama-3-70B 100K FP16 真值(公式 + 多源一致),未走样。