R

p308 - 多模态与脱离屏幕的交互

创建 2026-05-13 更新 2026-05-16 4 条双链 共创

p308. 多模态与脱离屏幕的交互设计

多模态 AI(c12)的技术突破,正在重塑人机交互的基本形态——从”用户盯着屏幕打字”,扩展到”用户说话、拍照、用手指、在空间中移动”。本章聚焦这些新交互范式的产品设计挑战。

3.8.1 语音交互设计

原生多模态(c12 §12.3 GPT-4o 范式,端到端延迟 < 300ms)使真正自然的语音对话成为可能。但技术突破不等于产品就绑定好了——语音交互面临独特的 UX 挑战。

打断处理(Barge-in)

用户在 AI 还没说完时就开始说话——这在人际对话中极其常见。系统必须能检测到用户的发声意图,立即停止输出,切换到聆听模式。

技术挑战

  • 不能用简单的音量阈值检测(环境噪音会误触发)
  • 需要区分”有意打断”和”无意的咳嗽/叹气”
  • 打断后 AI 应自然地接续(“好的,你说”),而非从头开始

产品设计要点:打断是用户表达不满意或想改变方向的信号。每次打断都是一条有价值的训练数据——记录打断发生时 AI 说到的内容,以及用户打断后的实际意图,可以帮助模型学习”什么时候不应该说这么多”。

沉默检测与话轮管理

人际对话中的沉默有多种含义——思考中、暗示对方接话、不同意但不想说。AI 需要判断沉默的含义:

沉默时长可能含义推荐应对
< 2s用户在思考,继续等待保持静默,不打断
2–4s可能需要确认温和探询:“需要我进一步解释吗?”
> 5s对话可能自然结束等待或轻柔地告知结束(“好的,随时可以继续聊”)

无屏幕时的信息架构

当 AI 的输出只有声音时(AirPods、智能音箱、车载系统),信息架构面临根本性改变:

严格的约束

  • 用户无法回看、无法扫读、无法跳过——声音是严格线性的
  • 列举超过 3 个选项时,用户很难记住全部
  • 没有视觉层次结构(标题、加粗、列表),必须通过语调和停顿传达结构

设计原则

  • 回答必须极度简洁,重要信息前置(不是结论在最后,而是结论在开头)
  • 主动提供摘要和确认点:“总结来看有三个选项:第一是…第二是…第三是…你想听哪个的详细版?”
  • 避免”由此可见”、“综合以上分析”等书面语,用”所以”、“就是说”等口语过渡

延伸思考:Podcast 制作人的技巧(信息前置、短句、频繁确认听众理解)对语音 AI 产品的文案设计有直接参考价值。

原生多模态 vs ASR 串联管线的 UX 差异

维度ASR 串联管线原生多模态
端到端延迟2–3 秒< 300ms
情绪/语调感知无(文字丢失声学信息)有(直接处理音频)
打断处理困难(需要在 ASR 结果层处理)原生支持
成本低(小模型串联)高(大模型实时推理)

产品判断:低延迟、情感感知型应用(情感陪伴、实时助手)必须使用原生多模态;查询型、非实时应用(语音笔记、语音搜索)ASR 串联管线成本更低、效果足够。

3.8.2 视觉理解驱动的交互

当 AI 能”看见”时(通过摄像头或屏幕截图),交互模式发生质变——用户可以”指着”东西提问,而非用文字描述。

应用场景

  • 拍照提问:“这个植物是什么品种?""这道菜的卡路里大约多少?”
  • 屏幕截图提问:“这段报错信息是什么意思?""这个表格中哪些数据异常?”
  • 实时视频流理解:AR 导航中识别路标、工业检测中识别缺陷

图像 token 成本的产品影响c12 §12.4m209 §2.6.6):一张 1024×1024 图像 ≈ 1700 tokens,成本相当于大段文字。在允许用户上传截图的产品中,需要:

  • 设置单次上传图片数量上限
  • 对图片进行压缩/降采样(在不影响关键信息的前提下)
  • 建立图像场景的专项成本模型

设计要点

  • 用户不应该被要求”先拍照→上传→等待→阅读回答”——流程太长。理想交互是”对准→AI 实时理解并叠加信息”
  • 当 AI 标注图片中的关键区域时,标注的视觉设计必须清晰且不遮挡原始内容
  • 隐私敏感:摄像头采集到的信息可能包含大量非目标内容(路人面孔、私密文件),需要在架构层面确保非必要信息不被存储或传输

3.8.3 穿戴设备与端侧交互

智能眼镜(如 Meta Ray-Ban)、AI 耳机、AI 吊坠等穿戴设备正在创造”永远在线”的 AI 交互范式。

Always-on 感知的隐私与体验平衡

设备持续收集音频/视觉信息,但大部分时间不应传输或处理——只在用户主动触发或检测到特定上下文时激活。

激活信号设计(关键设计决策):

  • 语音唤醒词(“Hey xxx”):最自然,但可能误触发,且需要持续本地监听
  • 物理按钮:最精确,但穿戴设备按钮操作有摩擦
  • 特定手势:介于两者之间,需要手势识别的计算资源

状态可见性:需要在设备上有清晰的”正在录制/处理”状态指示(LED 灯、触觉反馈),让用户和周围的人知道设备是否处于激活状态。这不只是 UX 问题,也是伦理和法律合规问题。

端侧推理的 UX 意义

端侧 AI(基于 量化后的小模型,c07c06 §6.3 SSM/Mamba):

  • 部分 AI 处理不需要联网 → 在飞机上、地铁中、偏远地区也能使用基础 AI 能力
  • 端侧模型受限于参数量,能力远弱于云端大模型

无缝切换机制(产品设计关键点):

有网络时:
  → 复杂任务 → 云端大模型处理
  → 简单任务 → 端侧模型处理(节省流量 + 降低延迟)

无网络时:
  → 端侧模型快速给出近似回答
  → 重新联网后,自动用云端模型验证并更新为精确回答

隐私权衡:端侧存储用户的长期记忆和偏好数据 → 隐私更好(数据不离开设备),但设备丢失/损坏时数据也会丢失。这是需要在产品设计中明确说明并让用户选择的权衡。

空间计算与 AR/VR 交互

Apple Vision Pro 等空间计算设备代表了下一代交互范式:

  • 眼动追踪作为指向设备(精度极高,但需要隐私声明)
  • 手势识别作为操作输入(无需物理控制器)
  • 声音输入作为文字输入的替代
  • AI 内容叠加在真实世界上(AR overlay)

当前阶段 AI 产品在空间计算领域的设计原则:在 2D 屏幕上有效的信息密度,在空间界面中需要大幅削减。

相关概念卡:量化Tokenization 模块一关联:c06 SSM 端侧优势c07 端侧部署c12 多模态融合与原生多模态 模块二关联:m209 §2.6.6 图像 token 成本估算 上一章:p307 Copilot → Autopilot 下一章:p309 特殊品类交互