p309 - 特殊品类交互设计要点
p309. 特殊品类的交互设计要点
不同的 AI 产品品类有截然不同的交互挑战。本章拆解当前最成熟或最具代表性的几个品类,从中提炼可迁移的设计原则。
3.9.1 全双工语音助手
2025 年的原生多模态模型(c12 §12.3)让全双工语音交互成为可能——AI 和用户可以同时说话、自然打断、感知情绪。
与传统语音助手的本质差异
| 维度 | 传统语音助手(Siri/Alexa) | 原生多模态语音助手 |
|---|---|---|
| 交互范式 | 严格串行:用户说 → AI 听 → AI 想 → AI 说 | 并行:AI 边听边思考,用户可随时打断 |
| 延迟 | 1–3 秒(ASR 串联管线) | < 300ms(端到端) |
| 情绪感知 | 无 | 从语调识别情绪并做适应性调整 |
| 上下文深度 | 有限(通常 1–2 轮) | 长对话上下文 |
| 典型失败场景 | 语音识别错误传播 | 回声消除失败、误打断 |
关键设计挑战
回声消除与噪声抑制:AI 需要区分自己的声音、用户的声音和环境噪声。这是一个高难度工程问题,设计时需要留出”打断后恢复”的 UX 容错流程(比如 AI 误打断后道歉并重新聆听)。
填充词(Filler Words)的设计:AI 的”嗯”、“啊”、“让我想一想”等填充词需要精心设计:
- 太少 → 显得冷漠、机械,像机器而非对话者
- 太多 → 显得聒噪,降低信息密度
- 最佳实践:在真实计算延迟时使用填充词(掩盖等待时间),在回答流畅时省略
情绪感知与表达适配:AI 从用户语调中识别情绪(急切、困惑、沮丧),并在自己的语音输出中做相应调整(更耐心、更简洁、更柔和)。这要求产品同时设计情绪分类模型和多种语气风格的 TTS 输出。
3.9.2 代码编辑器中的 AI
Cursor、Windsurf、GitHub Copilot 等产品在代码编辑场景中的交互设计是目前最成熟的 AI 产品 UX 范例之一。
四层交互模式叠加
L1 Tab 补全 → 最轻量、最高频、零打断
L2 Cmd+K 行内编辑 → 选中代码 + 指令 → diff 预览 → 接受/拒绝
L2 Chat 侧边栏 → 对话式问答,AI 感知当前代码上下文
L3 Agent 模式 → 描述需求 → 自动读文件/写代码/运行测试 → 展示 diff → 用户审核
每一层对应 p307 中的不同控制层级,用户可以根据任务复杂度和风险自由切换。这个”多层叠加”的设计正是代码 AI 产品成功的核心之一——不强迫用户选择一种模式,让不同需求的用户都能找到自己的交互入口。
为什么代码场景是 Agent 最先成熟的场景
| 条件 | 代码场景 | 其他场景(如医疗/法律) |
|---|---|---|
| 自动验证 | 可以编译/运行测试验证正确性 | 需要专业人工判断 |
| 工具支持 | Linter、compiler、test runner 支持自我纠错 | 工具链不完整 |
| 错误成本 | 沙箱中运行,不可逆影响有限 | 错误可能造成严重损害 |
| 用户专业度 | 开发者能快速识别 AI 的错误 | 非专业用户无法判断 |
这四个条件的同时满足,解释了为什么同样的 Agent 架构(c10、m207)在代码场景大规模落地,但在法律、医疗场景仍停留在 L1–L2。
可迁移原则:当你评估一个新场景是否适合 Agent 自主执行时,对照这四个条件逐一检查。任何一个条件不满足,都意味着需要在该维度上设计专项的兜底机制。
3.9.3 AI 客服:从自动化到人机协同
客服是 AI 落地最广泛的场景之一,但”用 AI 完全替代客服”和”用 AI 辅助人工客服”是两个截然不同的产品策略,各有其适用场景。
纯 AI 客服(L3–L4 自主)的适用条件
- 问题类型高度结构化(查订单、查快递、改地址)
- 知识库内容相对确定(FAQs、产品手册)
- 错误成本低且可逆(回答错了可以人工纠正)
- 用户容忍度相对高(非紧急场景)
设计关键:永远提供”转人工”的出口,且这个出口不应该是藏起来的。让用户感觉”我可以选择,但通常不需要”,远好于让用户感觉”我被困在了 AI 对话中”。
AI 辅助人工客服(L1–L2 协作)
AI 在后台给客服人员提供实时建议——推荐回答、相关知识库文章、客户历史画像。客服人员审核后发送。
数据飞轮设计:客服人员的每次”修改 AI 建议”都是极高质量的 SFT 数据——专业人员对特定问题类型的最优回答,是最难从其他渠道获取的领域数据。这是 AI 辅助客服模式对 p306 数据飞轮最直接的贡献。
3.9.4 AI 创意工具:容错设计与多变体
图像生成(Midjourney、DALL-E)、音乐生成(Suno)、视频生成(Runway、Sora)等创意 AI 工具的设计范式,与效率型 AI 产品有本质不同。
核心差异:创意场景中,“错误”本身可能有价值——一个”幻觉”式的意外生成结果可能给用户带来灵感。创意 AI 的产品设计应该拥抱不确定性,而非压制它。
设计原则:
| 原则 | 效率 AI 产品 | 创意 AI 产品 |
|---|---|---|
| 对输出不确定性的态度 | 最小化,展示最高置信答案 | 拥抱,展示多个变体供探索 |
| 错误的处理方式 | 纠错,引导用户重新定义 | 接受,作为”意外发现”的起点 |
| 主导权分配 | 用户明确指令,AI 精确执行 | 用户粗略方向,AI 大范围探索 |
| 反馈方式 | 点赞/点踩(好/坏二元) | 选择/放大/变体(方向性选择) |
Midjourney 的核心设计哲学:用户不是在”命令 AI 生成图片”,而是在”和 AI 一起探索可能性”。产品设计的核心不是精确执行,而是扩大探索空间,然后帮助用户从中找到惊喜。
附录:模块三与模块一/二的交叉引用索引
| 本模块章节 | 回指模块 | 回指内容 |
|---|---|---|
| p301 概率系统假设 | c01 | 确定性→概率系统认知重构 |
| p301 KV Cache 上下文限制 | c05 | KV Cache 物理约束 |
| p302 Generative UI | c10 | Function Calling 机制 |
| p302 后台 Agent | c11 | System 2 异步 UI |
| p304 TTFT/TPOT | c05 | Prefill / Decode 两阶段 |
| p304 溯源引用 | c09 | RAG 可溯源设计 |
| p304 logprobs 外显 | c08 | 解码策略与概率分布 |
| p305 幻觉与 RLHF 对齐税 | c13 | 幻觉与校准问题 |
| p305 HITL 断点 | m207 | Agent 兜底策略 |
| p306 DPO 训练数据 | c04 | 偏好对齐原理 |
| p306 冷启动合成数据 | m210 | 合成数据 Pipeline |
| p307 Agent 层级 | c10、m206 | Agent 可靠性与产品化 |
| p308 原生多模态延迟 | c12 | GPT-4o < 300ms 延迟 |
| p308 端侧推理 | c06、c07 | SSM + 量化 |
| p309 Agent 可靠性 | m207 | 失败模式与兜底 |
相关概念卡:Agent 与工具调用、SFT、RLHF/DPO、幻觉与校准 上一章:p308 多模态与脱屏交互 模块索引:模块三索引