c12 - 多模态融合与具身智能
12. 多模态融合与具身智能(Embodied AI)
多模态不是在 LLM 上”插件化”添加视觉能力,而是一场关于如何统一表示不同形式信息的架构革命。理解这一点,是判断多模态产品成本、延迟和能力边界的基础。
12.1 两种生成范式:自回归 vs 扩散
自回归模型(语言模型路线):逐 token 生成离散符号,天然适合代码、推理、结构化输出。文字、代码、甚至图像描述都可以纳入同一个 token 流。
扩散模型(Diffusion):在连续隐空间中反向去噪(从噪声逐步还原为图像),适合高保真图像、视频、3D 结构生成。生成多样性极高,但不擅长推理和逻辑控制。
两种范式正在走向融合:
- 自回归做图像生成(Chameleon、GPT-4o 的图像输出)
- 扩散模型融合语言理解(DALL-E 3 用 LLM 改写和丰富 prompt 后再送入扩散模型)
12.2 视觉理解:ViT 与视觉 Tokenization
ViT(Vision Transformer):将图像切分为固定大小的 patch(如 16×16 像素),每个 patch 被线性投影为一个”视觉 token”送入 Transformer。本质上是把”看图”问题转化为”读序列”问题,从而复用语言模型的全部能力。
视觉 Tokenization 的两条技术路线:
| 方案 | 原理 | 优势 | 代表模型 |
|---|---|---|---|
| 连续 Embedding | 视觉编码器输出连续向量,通过 Projector 对齐到语言空间 | 简单高效,图像质量高 | LLaVA、Qwen-VL、InternVL |
| 离散 Token(VQ-VAE) | 将图像量化为离散 token,与文字 token 同等处理 | 统一生成与理解,支持图像输出 | GPT-4o、Chameleon |
CLIP 对齐:CLIP 通过大规模图文对的对比学习,将图像和文字映射到同一向量空间——“一只橙色猫”的文字 embedding 和对应图片的 embedding 在空间上接近。这是跨模态语义对齐的基础,也是图文检索、以图搜图等功能的底层机制。
12.3 图像 Token 成本:被严重低估的账单
一张图像被切分为多个 patch 后,消耗的 token 数远超多数人的直觉:
| 图像尺寸 | 约等于 token 数 | 等价文字量 |
|---|---|---|
| 512×512 | ~500 tokens | 约 400 个英文词 |
| 1024×1024 | ~1700 tokens | 约 1300 个英文词 |
| 多张图 / 视频帧 | 累计乘法递增 | — |
对产品的直接影响:如果产品允许用户上传截图提问,每张截图的成本相当于一段中等长度的文字。视觉类产品的 API 成本容易超预期,需要专门建立视觉 token 的成本模型,并在产品设计中限制单次上传图片数量或分辨率。
12.4 从管线串联到原生多模态
旧范式(模块化管线):ASR(语音→文字)→ LLM(文字推理)→ TTS(文字→语音)。
- 累积延迟:2–3 秒
- 信息损失:ASR 过滤掉了语气、情绪、停顿等声学特征,LLM 只处理”说了什么”而非”怎么说的”
原生多模态:GPT-4o 将音频 token 直接输入 Transformer,与文字 token 统一处理。
- 端到端延迟:< 300ms(接近真人对话响应)
- 信息保真:能理解语气、情绪、笑声、停顿,并在语音输出中保留情感色彩
产品设计含义:语音类 AI 产品从”拨打电话”体验(ASR 管线)升级为”当面交谈”体验(原生多模态),是产品设计的范式切换点。延迟从 3 秒降到 300ms,用户体验不是量变而是质变。
12.5 视频理解:帧采样与时序建模
视频理解的核心挑战是信息密度极高:1 分钟 30fps 视频 = 1800 帧。暴力处理成本不可承受。
主流方案:稀疏帧采样(每秒 1–4 帧)→ 每帧作为视觉 token 处理 → 时序 Transformer 建模帧间关系。
当前能力边界:短视频理解(< 5 分钟)趋于成熟;长视频理解(1 小时+)仍是技术难题,主要受上下文窗口和成本约束。
12.6 具身智能(Embodied AI)的产品边界
具身 AI = 多模态感知 + 3D 空间理解 + 低延迟决策 + 物理执行。
三大工程挑战:
- Sim2Real Gap:仿真器中训练的模型在真实物理环境中性能大幅下降,转化率是核心难题
- 实时性要求:机器人控制通常需要 < 50ms 决策延迟,Transformer 在此场景有延迟劣势(SSM 架构更有优势)
- 3D 空间理解:2D 图像 token 本身不编码深度和空间关系,需要专门的深度估计或多视角融合
当前阶段:具身 AI 在工业、仓储、手术机器人等垂直场景有规模落地(Boston Dynamics、Figure、宇树);消费级通用人形机器人仍处于高成本展示阶段,距离大规模商业化还有 3–5 年。
相关概念卡:Attention 机制、Tokenization、Embedding 向量嵌入 模块二延伸:m209 §2.6.6 成本估算 — 图像 token 成本在实际产品中的量化估算(每张图可能等价 500–1700 个文字 token) 上一章:c11 System 2 下一章:c13 幻觉