R

c06 - 架构演进:Dense MoE SSM Hybrid

创建 2026-05-13 更新 2026-05-16 9 条双链 共创

6. 架构演进:后 Transformer 时代的抉择

Dense Transformer 是当前主流,但并非终点。MoE、SSM 三条路线代表着截然不同的工程哲学,也对应截然不同的产品适用场景和成本结构。

6.1 Dense Transformer:全参数的极限

每个 token 通过所有参数计算。质量天花板最高,但推理成本和显存占用随参数量线性增长。单卡无法承载大型 Dense 模型,部署成本昂贵。

适用场景:追求极致推理质量、成本不是首要约束的场景(如 Claude Opus、GPT-4o 的核心推理能力)。

6.2 MoE(混合专家模型):以显存换算力

MoE 的核心机制:将 Transformer 中的 FFN 层替换为多个并联的”专家(Expert)“网络。每个 token 经过一个 Router 动态选择少数几个专家(通常 2 个)参与计算,其余专家闲置。

关键数字DeepSeek-V3 标称 671B 参数,但每次推理只激活约 37B。计算成本接近 37B Dense 模型,知识容量接近 671B。

代价与隐患

  • 显存门槛高:全部 671B 参数仍需加载进显存,部署成本不低
  • 负载均衡难题(Expert Collapse):如果 Router 总是选同几个专家,其余专家成为摆设,模型实际退化为 Dense 小模型。解法是在训练中加入负载均衡辅助损失
  • 推理延迟:单请求延迟不一定比 Dense 小,批量推理时吞吐才有优势

产品含义:MoE 适合云端高并发服务,不适合端侧部署(显存需求太高)。当工程师说”我们用 MoE 模型”,追问的关键是:激活参数量是多少?负载均衡策略是什么?

6.3 SSM / Mamba:线性复杂度的长序列革命

Transformer 注意力计算复杂度是 O(N²)——序列长 10 倍,计算量 100 倍。SSM(状态空间模型)以**固定大小的隐状态(Recurrent State)**压缩历史信息,复杂度降至 O(N)。

Mamba 的关键创新(Selective State Space):传统 RNN 的隐状态更新是固定参数的,无法选择”记什么”。Mamba 让隐状态更新本身依赖输入内容——模型能动态决定对当前 token 保留多少历史信息。这克服了 RNN 的选择性遗忘缺陷,同时保持了线性复杂度。

优势

  • 超长序列成本可控(百万 token 也是线性)
  • 推理延迟极低,非常适合实时场景和端侧部署
  • 无需 KV Cache,显存占用恒定(不随上下文长度增长)

代价:压缩为固定大小的隐状态,意味着远程精确回忆能力弱于 Transformer。“文档第 3 页提到的具体数字是多少” 这类精确跨段查询,SSM 表现明显逊色。

6.4 Hybrid 架构:取长补短

将 Transformer Attention 层与 SSM 层混合使用。Attention 层处理需要精确全局依赖的关系,SSM 层处理高效的序列建模。Jamba(AI21 Labs)、Zamba、Apple 的 Research 模型是代表。

Hybrid 是当前最受学术界关注的方向——兼顾了 Transformer 的推理质量和 SSM 的长序列效率。

6.5 产品选型决策框架

场景需求推荐架构
极致逻辑推理、复杂代码Dense Transformer
降低推理成本、保持质量MoE
超长文档实时处理(> 100K token)SSM / Hybrid
端侧、移动端、IoT 部署SSM 或量化 Dense(见 c07
流式语音、实时感知控制SSM(延迟优势显著)

6.6 对比速查表

维度DenseMoESSM/MambaHybrid
推理质量(复杂任务)★★★★★★★★★★★★★★★★
显存需求极高低(恒定)
长文本成本O(N²)较高O(N)
首字延迟极低
端侧可行性极低
精确远程回忆★★★★★★★★★★★★★★★

相关概念卡:MoE 混合专家模型Attention 机制KV Cache 模块二延伸:m208 §2.5.4 模型服务层 — 不同架构的模型如何选择对应的推理服务框架(vLLM、TGI、llama.cpp) 上一章:c05 KV Cache 下一章:c07 量化