R

p309 - 特殊品类交互设计要点

创建 2026-05-13 更新 2026-05-18 3 条双链 共创

p309. 特殊品类的交互设计要点

不同的 AI 产品品类有截然不同的交互挑战。本章拆解当前最成熟或最具代表性的几个品类,从中提炼可迁移的设计原则。

3.9.1 全双工语音助手

2025 年的原生多模态模型(c12 §12.3)让全双工语音交互成为可能——AI 和用户可以同时说话、自然打断、感知情绪。

与传统语音助手的本质差异

维度传统语音助手(Siri/Alexa)原生多模态语音助手
交互范式严格串行:用户说 → AI 听 → AI 想 → AI 说并行:AI 边听边思考,用户可随时打断
延迟1–3 秒(ASR 串联管线)< 300ms(端到端)
情绪感知从语调识别情绪并做适应性调整
上下文深度有限(通常 1–2 轮)长对话上下文
典型失败场景语音识别错误传播回声消除失败、误打断

关键设计挑战

回声消除与噪声抑制:AI 需要区分自己的声音、用户的声音和环境噪声。这是一个高难度工程问题,设计时需要留出”打断后恢复”的 UX 容错流程(比如 AI 误打断后道歉并重新聆听)。

填充词(Filler Words)的设计:AI 的”嗯”、“啊”、“让我想一想”等填充词需要精心设计:

  • 太少 → 显得冷漠、机械,像机器而非对话者
  • 太多 → 显得聒噪,降低信息密度
  • 最佳实践:在真实计算延迟时使用填充词(掩盖等待时间),在回答流畅时省略

情绪感知与表达适配:AI 从用户语调中识别情绪(急切、困惑、沮丧),并在自己的语音输出中做相应调整(更耐心、更简洁、更柔和)。这要求产品同时设计情绪分类模型和多种语气风格的 TTS 输出。

3.9.2 代码编辑器中的 AI

Cursor、Windsurf、GitHub Copilot 等产品在代码编辑场景中的交互设计是目前最成熟的 AI 产品 UX 范例之一。

四层交互模式叠加

L1 Tab 补全      → 最轻量、最高频、零打断
L2 Cmd+K 行内编辑 → 选中代码 + 指令 → diff 预览 → 接受/拒绝
L2 Chat 侧边栏   → 对话式问答,AI 感知当前代码上下文
L3 Agent 模式   → 描述需求 → 自动读文件/写代码/运行测试 → 展示 diff → 用户审核

每一层对应 p307 中的不同控制层级,用户可以根据任务复杂度和风险自由切换。这个”多层叠加”的设计正是代码 AI 产品成功的核心之一——不强迫用户选择一种模式,让不同需求的用户都能找到自己的交互入口。

为什么代码场景是 Agent 最先成熟的场景

条件代码场景其他场景(如医疗/法律)
自动验证可以编译/运行测试验证正确性需要专业人工判断
工具支持Linter、compiler、test runner 支持自我纠错工具链不完整
错误成本沙箱中运行,不可逆影响有限错误可能造成严重损害
用户专业度开发者能快速识别 AI 的错误非专业用户无法判断

这四个条件的同时满足,解释了为什么同样的 Agent 架构(c10m207)在代码场景大规模落地,但在法律、医疗场景仍停留在 L1–L2。

可迁移原则:当你评估一个新场景是否适合 Agent 自主执行时,对照这四个条件逐一检查。任何一个条件不满足,都意味着需要在该维度上设计专项的兜底机制。

3.9.3 AI 客服:从自动化到人机协同

客服是 AI 落地最广泛的场景之一,但”用 AI 完全替代客服”和”用 AI 辅助人工客服”是两个截然不同的产品策略,各有其适用场景。

纯 AI 客服(L3–L4 自主)的适用条件

  • 问题类型高度结构化(查订单、查快递、改地址)
  • 知识库内容相对确定(FAQs、产品手册)
  • 错误成本低且可逆(回答错了可以人工纠正)
  • 用户容忍度相对高(非紧急场景)

设计关键:永远提供”转人工”的出口,且这个出口不应该是藏起来的。让用户感觉”我可以选择,但通常不需要”,远好于让用户感觉”我被困在了 AI 对话中”。

AI 辅助人工客服(L1–L2 协作)

AI 在后台给客服人员提供实时建议——推荐回答、相关知识库文章、客户历史画像。客服人员审核后发送。

数据飞轮设计:客服人员的每次”修改 AI 建议”都是极高质量的 SFT 数据——专业人员对特定问题类型的最优回答,是最难从其他渠道获取的领域数据。这是 AI 辅助客服模式对 p306 数据飞轮最直接的贡献。

3.9.4 AI 创意工具:容错设计与多变体

图像生成(Midjourney、DALL-E)、音乐生成(Suno)、视频生成(Runway、Sora)等创意 AI 工具的设计范式,与效率型 AI 产品有本质不同。

核心差异:创意场景中,“错误”本身可能有价值——一个”幻觉”式的意外生成结果可能给用户带来灵感。创意 AI 的产品设计应该拥抱不确定性,而非压制它

设计原则

原则效率 AI 产品创意 AI 产品
对输出不确定性的态度最小化,展示最高置信答案拥抱,展示多个变体供探索
错误的处理方式纠错,引导用户重新定义接受,作为”意外发现”的起点
主导权分配用户明确指令,AI 精确执行用户粗略方向,AI 大范围探索
反馈方式点赞/点踩(好/坏二元)选择/放大/变体(方向性选择)

Midjourney 的核心设计哲学:用户不是在”命令 AI 生成图片”,而是在”和 AI 一起探索可能性”。产品设计的核心不是精确执行,而是扩大探索空间,然后帮助用户从中找到惊喜


附录:模块三与模块一/二的交叉引用索引

本模块章节回指模块回指内容
p301 概率系统假设c01确定性→概率系统认知重构
p301 KV Cache 上下文限制c05KV Cache 物理约束
p302 Generative UIc10Function Calling 机制
p302 后台 Agentc11System 2 异步 UI
p304 TTFT/TPOTc05Prefill / Decode 两阶段
p304 溯源引用c09RAG 可溯源设计
p304 logprobs 外显c08解码策略与概率分布
p305 幻觉与 RLHF 对齐税c13幻觉与校准问题
p305 HITL 断点m207Agent 兜底策略
p306 DPO 训练数据c04偏好对齐原理
p306 冷启动合成数据m210合成数据 Pipeline
p307 Agent 层级c10m206Agent 可靠性与产品化
p308 原生多模态延迟c12GPT-4o < 300ms 延迟
p308 端侧推理c06c07SSM + 量化
p309 Agent 可靠性m207失败模式与兜底

相关概念卡:Agent 与工具调用SFTRLHF/DPO幻觉与校准 上一章:p308 多模态与脱屏交互 模块索引:模块三索引