12. 多模态融合与具身智能（Embodied AI）

多模态不是在 LLM 上”插件化”添加视觉能力，而是一场关于如何统一表示不同形式信息的架构革命。理解这一点，是判断多模态产品成本、延迟和能力边界的基础。

12.1 两种生成范式：自回归 vs 扩散

自回归模型（语言模型路线）：逐 token 生成离散符号，天然适合代码、推理、结构化输出。文字、代码、甚至图像描述都可以纳入同一个 token 流。

扩散模型（Diffusion）：在连续隐空间中反向去噪（从噪声逐步还原为图像），适合高保真图像、视频、3D 结构生成。生成多样性极高，但不擅长推理和逻辑控制。

两种范式正在走向融合：

ViT（Vision Transformer）：将图像切分为固定大小的 patch（如 16×16 像素），每个 patch 被线性投影为一个”视觉 token”送入 Transformer。本质上是把”看图”问题转化为”读序列”问题，从而复用语言模型的全部能力。

视觉 Tokenization 的两条技术路线：

方案	原理	优势	代表模型
连续 Embedding	视觉编码器输出连续向量，通过 Projector 对齐到语言空间	简单高效，图像质量高	LLaVA、Qwen-VL、InternVL
离散 Token（VQ-VAE）	将图像量化为离散 token，与文字 token 同等处理	统一生成与理解，支持图像输出	GPT-4o、Chameleon

CLIP 对齐：CLIP 通过大规模图文对的对比学习，将图像和文字映射到同一向量空间——“一只橙色猫”的文字 embedding 和对应图片的 embedding 在空间上接近。这是跨模态语义对齐的基础，也是图文检索、以图搜图等功能的底层机制。

一张图像被切分为多个 patch 后，消耗的 token 数远超多数人的直觉：

对产品的直接影响：如果产品允许用户上传截图提问，每张截图的成本相当于一段中等长度的文字。视觉类产品的 API 成本容易超预期，需要专门建立视觉 token 的成本模型，并在产品设计中限制单次上传图片数量或分辨率。

旧范式（模块化管线）：ASR（语音→文字）→ LLM（文字推理）→ TTS（文字→语音）。

原生多模态：GPT-4o 将音频 token 直接输入 Transformer，与文字 token 统一处理。

产品设计含义：语音类 AI 产品从”拨打电话”体验（ASR 管线）升级为”当面交谈”体验（原生多模态），是产品设计的范式切换点。延迟从 3 秒降到 300ms，用户体验不是量变而是质变。

视频理解的核心挑战是信息密度极高：1 分钟 30fps 视频 = 1800 帧。暴力处理成本不可承受。

主流方案：稀疏帧采样（每秒 1–4 帧）→ 每帧作为视觉 token 处理 → 时序 Transformer 建模帧间关系。

当前能力边界：短视频理解（< 5 分钟）趋于成熟；长视频理解（1 小时+）仍是技术难题，主要受上下文窗口和成本约束。

具身 AI = 多模态感知 + 3D 空间理解 + 低延迟决策 + 物理执行。

三大工程挑战：

当前阶段：具身 AI 在工业、仓储、手术机器人等垂直场景有规模落地（Boston Dynamics、Figure、宇树）；消费级通用人形机器人仍处于高成本展示阶段，距离大规模商业化还有 3–5 年。

相关概念卡：Attention 机制、Tokenization、Embedding 向量嵌入模块二延伸：m209 §2.6.6 成本估算 — 图像 token 成本在实际产品中的量化估算（每张图可能等价 500–1700 个文字 token）上一章：c11 System 2 下一章：c13 幻觉