p308. 多模态与脱离屏幕的交互设计

多模态 AI（c12）的技术突破，正在重塑人机交互的基本形态——从”用户盯着屏幕打字”，扩展到”用户说话、拍照、用手指、在空间中移动”。本章聚焦这些新交互范式的产品设计挑战。

3.8.1 语音交互设计

原生多模态（c12 §12.3 GPT-4o 范式，端到端延迟 < 300ms）使真正自然的语音对话成为可能。但技术突破不等于产品就绑定好了——语音交互面临独特的 UX 挑战。

打断处理（Barge-in）

用户在 AI 还没说完时就开始说话——这在人际对话中极其常见。系统必须能检测到用户的发声意图，立即停止输出，切换到聆听模式。

技术挑战：

不能用简单的音量阈值检测（环境噪音会误触发）
需要区分”有意打断”和”无意的咳嗽/叹气”
打断后 AI 应自然地接续（“好的，你说”），而非从头开始

产品设计要点：打断是用户表达不满意或想改变方向的信号。每次打断都是一条有价值的训练数据——记录打断发生时 AI 说到的内容，以及用户打断后的实际意图，可以帮助模型学习”什么时候不应该说这么多”。

沉默检测与话轮管理

人际对话中的沉默有多种含义——思考中、暗示对方接话、不同意但不想说。AI 需要判断沉默的含义：

沉默时长	可能含义	推荐应对
< 2s	用户在思考，继续等待	保持静默，不打断
2–4s	可能需要确认	温和探询：“需要我进一步解释吗？”
> 5s	对话可能自然结束	等待或轻柔地告知结束（“好的，随时可以继续聊”）

无屏幕时的信息架构

当 AI 的输出只有声音时（AirPods、智能音箱、车载系统），信息架构面临根本性改变：

严格的约束：

用户无法回看、无法扫读、无法跳过——声音是严格线性的
列举超过 3 个选项时，用户很难记住全部
没有视觉层次结构（标题、加粗、列表），必须通过语调和停顿传达结构

设计原则：

回答必须极度简洁，重要信息前置（不是结论在最后，而是结论在开头）
主动提供摘要和确认点：“总结来看有三个选项：第一是…第二是…第三是…你想听哪个的详细版？”
避免”由此可见”、“综合以上分析”等书面语，用”所以”、“就是说”等口语过渡

延伸思考：Podcast 制作人的技巧（信息前置、短句、频繁确认听众理解）对语音 AI 产品的文案设计有直接参考价值。

原生多模态 vs ASR 串联管线的 UX 差异

维度	ASR 串联管线	原生多模态
端到端延迟	2–3 秒	< 300ms
情绪/语调感知	无（文字丢失声学信息）	有（直接处理音频）
打断处理	困难（需要在 ASR 结果层处理）	原生支持
成本	低（小模型串联）	高（大模型实时推理）

产品判断：低延迟、情感感知型应用（情感陪伴、实时助手）必须使用原生多模态；查询型、非实时应用（语音笔记、语音搜索）ASR 串联管线成本更低、效果足够。

3.8.2 视觉理解驱动的交互

当 AI 能”看见”时（通过摄像头或屏幕截图），交互模式发生质变——用户可以”指着”东西提问，而非用文字描述。

应用场景：

拍照提问：“这个植物是什么品种？""这道菜的卡路里大约多少？”
屏幕截图提问：“这段报错信息是什么意思？""这个表格中哪些数据异常？”
实时视频流理解：AR 导航中识别路标、工业检测中识别缺陷

图像 token 成本的产品影响（c12 §12.4、m209 §2.6.6）：一张 1024×1024 图像 ≈ 1700 tokens，成本相当于大段文字。在允许用户上传截图的产品中，需要：

设置单次上传图片数量上限
对图片进行压缩/降采样（在不影响关键信息的前提下）
建立图像场景的专项成本模型

设计要点：

用户不应该被要求”先拍照→上传→等待→阅读回答”——流程太长。理想交互是”对准→AI 实时理解并叠加信息”
当 AI 标注图片中的关键区域时，标注的视觉设计必须清晰且不遮挡原始内容
隐私敏感：摄像头采集到的信息可能包含大量非目标内容（路人面孔、私密文件），需要在架构层面确保非必要信息不被存储或传输

3.8.3 穿戴设备与端侧交互

智能眼镜（如 Meta Ray-Ban）、AI 耳机、AI 吊坠等穿戴设备正在创造”永远在线”的 AI 交互范式。

Always-on 感知的隐私与体验平衡

设备持续收集音频/视觉信息，但大部分时间不应传输或处理——只在用户主动触发或检测到特定上下文时激活。

激活信号设计（关键设计决策）：

语音唤醒词（“Hey xxx”）：最自然，但可能误触发，且需要持续本地监听
物理按钮：最精确，但穿戴设备按钮操作有摩擦
特定手势：介于两者之间，需要手势识别的计算资源

状态可见性：需要在设备上有清晰的”正在录制/处理”状态指示（LED 灯、触觉反馈），让用户和周围的人知道设备是否处于激活状态。这不只是 UX 问题，也是伦理和法律合规问题。

端侧推理的 UX 意义

端侧 AI（基于量化后的小模型，c07 和 c06 §6.3 SSM/Mamba）：

部分 AI 处理不需要联网 → 在飞机上、地铁中、偏远地区也能使用基础 AI 能力
端侧模型受限于参数量，能力远弱于云端大模型

无缝切换机制（产品设计关键点）：

有网络时：
  → 复杂任务 → 云端大模型处理
  → 简单任务 → 端侧模型处理（节省流量 + 降低延迟）

无网络时：
  → 端侧模型快速给出近似回答
  → 重新联网后，自动用云端模型验证并更新为精确回答

隐私权衡：端侧存储用户的长期记忆和偏好数据 → 隐私更好（数据不离开设备），但设备丢失/损坏时数据也会丢失。这是需要在产品设计中明确说明并让用户选择的权衡。

空间计算与 AR/VR 交互

Apple Vision Pro 等空间计算设备代表了下一代交互范式：

眼动追踪作为指向设备（精度极高，但需要隐私声明）
手势识别作为操作输入（无需物理控制器）
声音输入作为文字输入的替代
AI 内容叠加在真实世界上（AR overlay）

当前阶段 AI 产品在空间计算领域的设计原则：在 2D 屏幕上有效的信息密度，在空间界面中需要大幅削减。

相关概念卡：量化、Tokenization 模块一关联：c06 SSM 端侧优势、c07 端侧部署、c12 多模态融合与原生多模态模块二关联：m209 §2.6.6 图像 token 成本估算上一章：p307 Copilot → Autopilot 下一章：p309 特殊品类交互

p308 - 多模态与脱离屏幕的交互