p308 - 多模态与脱离屏幕的交互
p308. 多模态与脱离屏幕的交互设计
多模态 AI(c12)的技术突破,正在重塑人机交互的基本形态——从”用户盯着屏幕打字”,扩展到”用户说话、拍照、用手指、在空间中移动”。本章聚焦这些新交互范式的产品设计挑战。
3.8.1 语音交互设计
原生多模态(c12 §12.3 GPT-4o 范式,端到端延迟 < 300ms)使真正自然的语音对话成为可能。但技术突破不等于产品就绑定好了——语音交互面临独特的 UX 挑战。
打断处理(Barge-in)
用户在 AI 还没说完时就开始说话——这在人际对话中极其常见。系统必须能检测到用户的发声意图,立即停止输出,切换到聆听模式。
技术挑战:
- 不能用简单的音量阈值检测(环境噪音会误触发)
- 需要区分”有意打断”和”无意的咳嗽/叹气”
- 打断后 AI 应自然地接续(“好的,你说”),而非从头开始
产品设计要点:打断是用户表达不满意或想改变方向的信号。每次打断都是一条有价值的训练数据——记录打断发生时 AI 说到的内容,以及用户打断后的实际意图,可以帮助模型学习”什么时候不应该说这么多”。
沉默检测与话轮管理
人际对话中的沉默有多种含义——思考中、暗示对方接话、不同意但不想说。AI 需要判断沉默的含义:
| 沉默时长 | 可能含义 | 推荐应对 |
|---|---|---|
| < 2s | 用户在思考,继续等待 | 保持静默,不打断 |
| 2–4s | 可能需要确认 | 温和探询:“需要我进一步解释吗?” |
| > 5s | 对话可能自然结束 | 等待或轻柔地告知结束(“好的,随时可以继续聊”) |
无屏幕时的信息架构
当 AI 的输出只有声音时(AirPods、智能音箱、车载系统),信息架构面临根本性改变:
严格的约束:
- 用户无法回看、无法扫读、无法跳过——声音是严格线性的
- 列举超过 3 个选项时,用户很难记住全部
- 没有视觉层次结构(标题、加粗、列表),必须通过语调和停顿传达结构
设计原则:
- 回答必须极度简洁,重要信息前置(不是结论在最后,而是结论在开头)
- 主动提供摘要和确认点:“总结来看有三个选项:第一是…第二是…第三是…你想听哪个的详细版?”
- 避免”由此可见”、“综合以上分析”等书面语,用”所以”、“就是说”等口语过渡
延伸思考:Podcast 制作人的技巧(信息前置、短句、频繁确认听众理解)对语音 AI 产品的文案设计有直接参考价值。
原生多模态 vs ASR 串联管线的 UX 差异
| 维度 | ASR 串联管线 | 原生多模态 |
|---|---|---|
| 端到端延迟 | 2–3 秒 | < 300ms |
| 情绪/语调感知 | 无(文字丢失声学信息) | 有(直接处理音频) |
| 打断处理 | 困难(需要在 ASR 结果层处理) | 原生支持 |
| 成本 | 低(小模型串联) | 高(大模型实时推理) |
产品判断:低延迟、情感感知型应用(情感陪伴、实时助手)必须使用原生多模态;查询型、非实时应用(语音笔记、语音搜索)ASR 串联管线成本更低、效果足够。
3.8.2 视觉理解驱动的交互
当 AI 能”看见”时(通过摄像头或屏幕截图),交互模式发生质变——用户可以”指着”东西提问,而非用文字描述。
应用场景:
- 拍照提问:“这个植物是什么品种?""这道菜的卡路里大约多少?”
- 屏幕截图提问:“这段报错信息是什么意思?""这个表格中哪些数据异常?”
- 实时视频流理解:AR 导航中识别路标、工业检测中识别缺陷
图像 token 成本的产品影响(c12 §12.4、m209 §2.6.6):一张 1024×1024 图像 ≈ 1700 tokens,成本相当于大段文字。在允许用户上传截图的产品中,需要:
- 设置单次上传图片数量上限
- 对图片进行压缩/降采样(在不影响关键信息的前提下)
- 建立图像场景的专项成本模型
设计要点:
- 用户不应该被要求”先拍照→上传→等待→阅读回答”——流程太长。理想交互是”对准→AI 实时理解并叠加信息”
- 当 AI 标注图片中的关键区域时,标注的视觉设计必须清晰且不遮挡原始内容
- 隐私敏感:摄像头采集到的信息可能包含大量非目标内容(路人面孔、私密文件),需要在架构层面确保非必要信息不被存储或传输
3.8.3 穿戴设备与端侧交互
智能眼镜(如 Meta Ray-Ban)、AI 耳机、AI 吊坠等穿戴设备正在创造”永远在线”的 AI 交互范式。
Always-on 感知的隐私与体验平衡
设备持续收集音频/视觉信息,但大部分时间不应传输或处理——只在用户主动触发或检测到特定上下文时激活。
激活信号设计(关键设计决策):
- 语音唤醒词(“Hey xxx”):最自然,但可能误触发,且需要持续本地监听
- 物理按钮:最精确,但穿戴设备按钮操作有摩擦
- 特定手势:介于两者之间,需要手势识别的计算资源
状态可见性:需要在设备上有清晰的”正在录制/处理”状态指示(LED 灯、触觉反馈),让用户和周围的人知道设备是否处于激活状态。这不只是 UX 问题,也是伦理和法律合规问题。
端侧推理的 UX 意义
端侧 AI(基于 量化后的小模型,c07 和 c06 §6.3 SSM/Mamba):
- 部分 AI 处理不需要联网 → 在飞机上、地铁中、偏远地区也能使用基础 AI 能力
- 端侧模型受限于参数量,能力远弱于云端大模型
无缝切换机制(产品设计关键点):
有网络时:
→ 复杂任务 → 云端大模型处理
→ 简单任务 → 端侧模型处理(节省流量 + 降低延迟)
无网络时:
→ 端侧模型快速给出近似回答
→ 重新联网后,自动用云端模型验证并更新为精确回答
隐私权衡:端侧存储用户的长期记忆和偏好数据 → 隐私更好(数据不离开设备),但设备丢失/损坏时数据也会丢失。这是需要在产品设计中明确说明并让用户选择的权衡。
空间计算与 AR/VR 交互
Apple Vision Pro 等空间计算设备代表了下一代交互范式:
- 眼动追踪作为指向设备(精度极高,但需要隐私声明)
- 手势识别作为操作输入(无需物理控制器)
- 声音输入作为文字输入的替代
- AI 内容叠加在真实世界上(AR overlay)
当前阶段 AI 产品在空间计算领域的设计原则:在 2D 屏幕上有效的信息密度,在空间界面中需要大幅削减。
相关概念卡:量化、Tokenization 模块一关联:c06 SSM 端侧优势、c07 端侧部署、c12 多模态融合与原生多模态 模块二关联:m209 §2.6.6 图像 token 成本估算 上一章:p307 Copilot → Autopilot 下一章:p309 特殊品类交互