6. 架构演进：后 Transformer 时代的抉择

Dense Transformer 是当前主流，但并非终点。MoE、SSM 三条路线代表着截然不同的工程哲学，也对应截然不同的产品适用场景和成本结构。

6.1 Dense Transformer：全参数的极限

每个 token 通过所有参数计算。质量天花板最高，但推理成本和显存占用随参数量线性增长。单卡无法承载大型 Dense 模型，部署成本昂贵。

适用场景：追求极致推理质量、成本不是首要约束的场景（如 Claude Opus、GPT-4o 的核心推理能力）。

MoE 的核心机制：将 Transformer 中的 FFN 层替换为多个并联的”专家（Expert）“网络。每个 token 经过一个 Router 动态选择少数几个专家（通常 2 个）参与计算，其余专家闲置。

关键数字：DeepSeek-V3 标称 671B 参数，但每次推理只激活约 37B。计算成本接近 37B Dense 模型，知识容量接近 671B。

代价与隐患：

显存门槛高：全部 671B 参数仍需加载进显存，部署成本不低
负载均衡难题（Expert Collapse）：如果 Router 总是选同几个专家，其余专家成为摆设，模型实际退化为 Dense 小模型。解法是在训练中加入负载均衡辅助损失
推理延迟：单请求延迟不一定比 Dense 小，批量推理时吞吐才有优势

产品含义：MoE 适合云端高并发服务，不适合端侧部署（显存需求太高）。当工程师说”我们用 MoE 模型”，追问的关键是：激活参数量是多少？负载均衡策略是什么？

Transformer 注意力计算复杂度是 O(N²)——序列长 10 倍，计算量 100 倍。SSM（状态空间模型）以**固定大小的隐状态（Recurrent State）**压缩历史信息，复杂度降至 O(N)。

Mamba 的关键创新（Selective State Space）：传统 RNN 的隐状态更新是固定参数的，无法选择”记什么”。Mamba 让隐状态更新本身依赖输入内容——模型能动态决定对当前 token 保留多少历史信息。这克服了 RNN 的选择性遗忘缺陷，同时保持了线性复杂度。

优势：

代价：压缩为固定大小的隐状态，意味着远程精确回忆能力弱于 Transformer。“文档第 3 页提到的具体数字是多少” 这类精确跨段查询，SSM 表现明显逊色。

将 Transformer Attention 层与 SSM 层混合使用。Attention 层处理需要精确全局依赖的关系，SSM 层处理高效的序列建模。Jamba（AI21 Labs）、Zamba、Apple 的 Research 模型是代表。

Hybrid 是当前最受学术界关注的方向——兼顾了 Transformer 的推理质量和 SSM 的长序列效率。

维度	Dense	MoE	SSM/Mamba	Hybrid
推理质量（复杂任务）	★★★★★	★★★★	★★★	★★★★
显存需求	高	极高	低（恒定）	中
长文本成本	O(N²)	较高	O(N)	中
首字延迟	高	中	极低	低
端侧可行性	低	极低	高	中
精确远程回忆	★★★★★	★★★★	★★	★★★★

相关概念卡：MoE 混合专家模型、Attention 机制、KV Cache 模块二延伸：m208 §2.5.4 模型服务层 — 不同架构的模型如何选择对应的推理服务框架（vLLM、TGI、llama.cpp）上一章：c05 KV Cache 下一章：c07 量化