p309. 特殊品类的交互设计要点

不同的 AI 产品品类有截然不同的交互挑战。本章拆解当前最成熟或最具代表性的几个品类，从中提炼可迁移的设计原则。

3.9.1 全双工语音助手

2025 年的原生多模态模型（c12 §12.3）让全双工语音交互成为可能——AI 和用户可以同时说话、自然打断、感知情绪。

与传统语音助手的本质差异

维度	传统语音助手（Siri/Alexa）	原生多模态语音助手
交互范式	严格串行：用户说 → AI 听 → AI 想 → AI 说	并行：AI 边听边思考，用户可随时打断
延迟	1–3 秒（ASR 串联管线）	< 300ms（端到端）
情绪感知	无	从语调识别情绪并做适应性调整
上下文深度	有限（通常 1–2 轮）	长对话上下文
典型失败场景	语音识别错误传播	回声消除失败、误打断

关键设计挑战

回声消除与噪声抑制：AI 需要区分自己的声音、用户的声音和环境噪声。这是一个高难度工程问题，设计时需要留出”打断后恢复”的 UX 容错流程（比如 AI 误打断后道歉并重新聆听）。

填充词（Filler Words）的设计：AI 的”嗯”、“啊”、“让我想一想”等填充词需要精心设计：

太少 → 显得冷漠、机械，像机器而非对话者
太多 → 显得聒噪，降低信息密度
最佳实践：在真实计算延迟时使用填充词（掩盖等待时间），在回答流畅时省略

情绪感知与表达适配：AI 从用户语调中识别情绪（急切、困惑、沮丧），并在自己的语音输出中做相应调整（更耐心、更简洁、更柔和）。这要求产品同时设计情绪分类模型和多种语气风格的 TTS 输出。

3.9.2 代码编辑器中的 AI

Cursor、Windsurf、GitHub Copilot 等产品在代码编辑场景中的交互设计是目前最成熟的 AI 产品 UX 范例之一。

四层交互模式叠加

L1 Tab 补全      → 最轻量、最高频、零打断
L2 Cmd+K 行内编辑 → 选中代码 + 指令 → diff 预览 → 接受/拒绝
L2 Chat 侧边栏   → 对话式问答，AI 感知当前代码上下文
L3 Agent 模式   → 描述需求 → 自动读文件/写代码/运行测试 → 展示 diff → 用户审核

每一层对应 p307 中的不同控制层级，用户可以根据任务复杂度和风险自由切换。这个”多层叠加”的设计正是代码 AI 产品成功的核心之一——不强迫用户选择一种模式，让不同需求的用户都能找到自己的交互入口。

为什么代码场景是 Agent 最先成熟的场景

条件	代码场景	其他场景（如医疗/法律）
自动验证	可以编译/运行测试验证正确性	需要专业人工判断
工具支持	Linter、compiler、test runner 支持自我纠错	工具链不完整
错误成本	沙箱中运行，不可逆影响有限	错误可能造成严重损害
用户专业度	开发者能快速识别 AI 的错误	非专业用户无法判断

这四个条件的同时满足，解释了为什么同样的 Agent 架构（c10、m207）在代码场景大规模落地，但在法律、医疗场景仍停留在 L1–L2。

可迁移原则：当你评估一个新场景是否适合 Agent 自主执行时，对照这四个条件逐一检查。任何一个条件不满足，都意味着需要在该维度上设计专项的兜底机制。

3.9.3 AI 客服：从自动化到人机协同

客服是 AI 落地最广泛的场景之一，但”用 AI 完全替代客服”和”用 AI 辅助人工客服”是两个截然不同的产品策略，各有其适用场景。

纯 AI 客服（L3–L4 自主）的适用条件

问题类型高度结构化（查订单、查快递、改地址）
知识库内容相对确定（FAQs、产品手册）
错误成本低且可逆（回答错了可以人工纠正）
用户容忍度相对高（非紧急场景）

设计关键：永远提供”转人工”的出口，且这个出口不应该是藏起来的。让用户感觉”我可以选择，但通常不需要”，远好于让用户感觉”我被困在了 AI 对话中”。

AI 辅助人工客服（L1–L2 协作）

AI 在后台给客服人员提供实时建议——推荐回答、相关知识库文章、客户历史画像。客服人员审核后发送。

数据飞轮设计：客服人员的每次”修改 AI 建议”都是极高质量的 SFT 数据——专业人员对特定问题类型的最优回答，是最难从其他渠道获取的领域数据。这是 AI 辅助客服模式对 p306 数据飞轮最直接的贡献。

3.9.4 AI 创意工具：容错设计与多变体

图像生成（Midjourney、DALL-E）、音乐生成（Suno）、视频生成（Runway、Sora）等创意 AI 工具的设计范式，与效率型 AI 产品有本质不同。

核心差异：创意场景中，“错误”本身可能有价值——一个”幻觉”式的意外生成结果可能给用户带来灵感。创意 AI 的产品设计应该拥抱不确定性，而非压制它。

设计原则：

原则	效率 AI 产品	创意 AI 产品
对输出不确定性的态度	最小化，展示最高置信答案	拥抱，展示多个变体供探索
错误的处理方式	纠错，引导用户重新定义	接受，作为”意外发现”的起点
主导权分配	用户明确指令，AI 精确执行	用户粗略方向，AI 大范围探索
反馈方式	点赞/点踩（好/坏二元）	选择/放大/变体（方向性选择）

Midjourney 的核心设计哲学：用户不是在”命令 AI 生成图片”，而是在”和 AI 一起探索可能性”。产品设计的核心不是精确执行，而是扩大探索空间，然后帮助用户从中找到惊喜。

附录：模块三与模块一/二的交叉引用索引

本模块章节	回指模块	回指内容
p301 概率系统假设	c01	确定性→概率系统认知重构
p301 KV Cache 上下文限制	c05	KV Cache 物理约束
p302 Generative UI	c10	Function Calling 机制
p302 后台 Agent	c11	System 2 异步 UI
p304 TTFT/TPOT	c05	Prefill / Decode 两阶段
p304 溯源引用	c09	RAG 可溯源设计
p304 logprobs 外显	c08	解码策略与概率分布
p305 幻觉与 RLHF 对齐税	c13	幻觉与校准问题
p305 HITL 断点	m207	Agent 兜底策略
p306 DPO 训练数据	c04	偏好对齐原理
p306 冷启动合成数据	m210	合成数据 Pipeline
p307 Agent 层级	c10、m206	Agent 可靠性与产品化
p308 原生多模态延迟	c12	GPT-4o < 300ms 延迟
p308 端侧推理	c06、c07	SSM + 量化
p309 Agent 可靠性	m207	失败模式与兜底

相关概念卡：Agent 与工具调用、SFT、RLHF/DPO、幻觉与校准上一章：p308 多模态与脱屏交互模块索引：模块三索引

p309 - 特殊品类交互设计要点