R

c12 - 多模态融合与具身智能

创建 2026-05-13 更新 2026-05-16 9 条双链 共创

12. 多模态融合与具身智能(Embodied AI)

多模态不是在 LLM 上”插件化”添加视觉能力,而是一场关于如何统一表示不同形式信息的架构革命。理解这一点,是判断多模态产品成本、延迟和能力边界的基础。

12.1 两种生成范式:自回归 vs 扩散

自回归模型(语言模型路线):逐 token 生成离散符号,天然适合代码、推理、结构化输出。文字、代码、甚至图像描述都可以纳入同一个 token 流。

扩散模型(Diffusion):在连续隐空间中反向去噪(从噪声逐步还原为图像),适合高保真图像、视频、3D 结构生成。生成多样性极高,但不擅长推理和逻辑控制。

两种范式正在走向融合

  • 自回归做图像生成(Chameleon、GPT-4o 的图像输出)
  • 扩散模型融合语言理解(DALL-E 3 用 LLM 改写和丰富 prompt 后再送入扩散模型)

12.2 视觉理解:ViT 与视觉 Tokenization

ViT(Vision Transformer):将图像切分为固定大小的 patch(如 16×16 像素),每个 patch 被线性投影为一个”视觉 token”送入 Transformer。本质上是把”看图”问题转化为”读序列”问题,从而复用语言模型的全部能力。

视觉 Tokenization 的两条技术路线

方案原理优势代表模型
连续 Embedding视觉编码器输出连续向量,通过 Projector 对齐到语言空间简单高效,图像质量高LLaVA、Qwen-VL、InternVL
离散 Token(VQ-VAE)将图像量化为离散 token,与文字 token 同等处理统一生成与理解,支持图像输出GPT-4o、Chameleon

CLIP 对齐:CLIP 通过大规模图文对的对比学习,将图像和文字映射到同一向量空间——“一只橙色猫”的文字 embedding 和对应图片的 embedding 在空间上接近。这是跨模态语义对齐的基础,也是图文检索、以图搜图等功能的底层机制。

12.3 图像 Token 成本:被严重低估的账单

一张图像被切分为多个 patch 后,消耗的 token 数远超多数人的直觉:

图像尺寸约等于 token 数等价文字量
512×512~500 tokens约 400 个英文词
1024×1024~1700 tokens约 1300 个英文词
多张图 / 视频帧累计乘法递增

对产品的直接影响:如果产品允许用户上传截图提问,每张截图的成本相当于一段中等长度的文字。视觉类产品的 API 成本容易超预期,需要专门建立视觉 token 的成本模型,并在产品设计中限制单次上传图片数量或分辨率。

12.4 从管线串联到原生多模态

旧范式(模块化管线):ASR(语音→文字)→ LLM(文字推理)→ TTS(文字→语音)。

  • 累积延迟:2–3 秒
  • 信息损失:ASR 过滤掉了语气、情绪、停顿等声学特征,LLM 只处理”说了什么”而非”怎么说的”

原生多模态:GPT-4o 将音频 token 直接输入 Transformer,与文字 token 统一处理。

  • 端到端延迟:< 300ms(接近真人对话响应)
  • 信息保真:能理解语气、情绪、笑声、停顿,并在语音输出中保留情感色彩

产品设计含义:语音类 AI 产品从”拨打电话”体验(ASR 管线)升级为”当面交谈”体验(原生多模态),是产品设计的范式切换点。延迟从 3 秒降到 300ms,用户体验不是量变而是质变。

12.5 视频理解:帧采样与时序建模

视频理解的核心挑战是信息密度极高:1 分钟 30fps 视频 = 1800 帧。暴力处理成本不可承受。

主流方案:稀疏帧采样(每秒 1–4 帧)→ 每帧作为视觉 token 处理 → 时序 Transformer 建模帧间关系。

当前能力边界:短视频理解(< 5 分钟)趋于成熟;长视频理解(1 小时+)仍是技术难题,主要受上下文窗口和成本约束。

12.6 具身智能(Embodied AI)的产品边界

具身 AI = 多模态感知 + 3D 空间理解 + 低延迟决策 + 物理执行。

三大工程挑战

  • Sim2Real Gap:仿真器中训练的模型在真实物理环境中性能大幅下降,转化率是核心难题
  • 实时性要求:机器人控制通常需要 < 50ms 决策延迟,Transformer 在此场景有延迟劣势(SSM 架构更有优势)
  • 3D 空间理解:2D 图像 token 本身不编码深度和空间关系,需要专门的深度估计或多视角融合

当前阶段:具身 AI 在工业、仓储、手术机器人等垂直场景有规模落地(Boston Dynamics、Figure、宇树);消费级通用人形机器人仍处于高成本展示阶段,距离大规模商业化还有 3–5 年。

相关概念卡:Attention 机制TokenizationEmbedding 向量嵌入 模块二延伸:m209 §2.6.6 成本估算 — 图像 token 成本在实际产品中的量化估算(每张图可能等价 500–1700 个文字 token) 上一章:c11 System 2 下一章:c13 幻觉