p302. 超越对话框：七种 AI 交互设计模式

对话界面是 AI 产品的默认选择，但每种场景都有更优的专属模式。本章系统梳理当前业界已验证的七种核心模式，并提供选型逻辑。

3.2.1 七种核心交互模式

模式一：行内补全（Inline Completion）

AI 在用户正在编辑的位置直接给出建议，用户通过极低成本的操作（Tab 键）接受或忽略。

典型产品：GitHub Copilot（代码补全）、Gmail Smart Compose（邮件补全）、Notion AI（文档续写）

设计关键点：

建议必须在视觉上与用户已输入的内容有明确区分（灰色预览文字 vs 黑色正文）
接受操作必须是零思考成本的（一键接受，不需要做任何判断）
拒绝操作必须是零成本的（继续打字就自动消失，不需要显式关闭）
延迟要求极高：建议必须在用户停顿后 100–300ms 内出现，否则会打断打字节奏

数据飞轮闭环：用户每次 Tab 接受 = 正样本；继续打字忽略 = 隐式负样本。Copilot 通过这个机制每天采集数百万条隐式偏好数据，无需用户做任何额外操作（详见 p306 §3.6.2）。

设计洞察：行内补全的”幽灵文字”（Ghost Text）设计把”AI 建议”和”用户正在写的东西”放在同一个视觉层级，而不是弹出一个对话框。这消除了上下文切换的认知代价——这是它被大量复制的根本原因。

模式二：选区操作（Selection-Based Action）

用户选中一段内容（文字、代码、数据），触发上下文菜单，对选中内容执行 AI 操作（翻译、改写、解释、修复、提炼）。

典型产品：Notion AI（选中文字→弹出 AI 操作栏）、Cursor（选中代码→Cmd+K 编辑指令）、Google Docs AI

设计关键点：

AI 操作的结果应直接替换或标注在原位，而非跳转到新窗口
必须支持一键撤销（Undo），因为原地替换的错误成本远高于对话框中的错误
提供预设操作（翻译、简化、扩展）降低用户构思 prompt 的负担
选区范围隐式限定了 AI 的操作边界，大幅降低了”AI 会动哪些内容”的不确定性

设计洞察：选区操作是”表达焦虑”（见 p301 §3.1.1）的一个优雅解法——用户不需要用语言描述”对第三段第二句做 X 操作”，直接选中然后选择操作即可。选区本身携带了意图的空间定位信息。

在用户的主工作区旁边提供一个 AI 对话面板，AI 可以感知主工作区的内容并提供上下文相关的帮助。

典型产品：GitHub Copilot Chat（IDE 侧边栏）、Microsoft 365 Copilot（Office 侧边栏）、Cursor Chat

设计关键点：

侧边栏不应抢占主工作区的视觉焦点——用户的核心任务在主区域
AI 的建议需要有”应用到主区域”的一键操作（Apply / Insert / Replace），而非让用户手动复制
侧边栏的对话上下文应自动包含主工作区的当前内容（当前文件、选中代码、光标位置），减少用户重复提供上下文的负担

与RAG的关系：侧边栏助手的”感知主工作区内容”本质上是一种实时的上下文注入——将用户当前的文件、选中内容等作为动态 context 注入 Prompt 中（m201 System Prompt 设计），类似 RAG 但来源是用户当前工作状态而非外部知识库。

模式四：Generative UI（动态生成界面）

AI 不仅生成文本，还生成交互组件——表格、图表、表单、日历卡片、地图——用户可以直接在生成的组件上操作，而非仅仅阅读文字。

典型产品：ChatGPT（天气查询返回可视化卡片）、Perplexity（搜索结果返回结构化摘要 + 来源卡片）、Claude Artifacts（生成可运行的代码/可编辑的文档）

技术基础：LLM 通过 Function Calling（c10 §10.2）调用工具并返回结构化数据，前端根据返回的数据类型动态渲染对应的 UI 组件。Vercel AI SDK 的 Generative UI 功能允许 LLM 直接流式输出 React 组件。

设计关键点：

组件的设计语言必须与宿主应用一致（不能像外嵌的 iframe）
交互组件必须有明确的加载状态（Skeleton Screen）和错误状态（Fallback UI）
用户在生成的组件上的操作（点击、修改、选择）应被捕获为反馈信号

设计洞察：Thesys 的 Generative UI 研究报告指出，纯文本 AI 输出导致严重的”信息过载”——用户描述”被细节淹没、只能扫读、找不到重点”。当相同信息以结构化的 UI 组件呈现时，用户的信息获取效率和满意度显著提升。Generative UI 不是花哨的功能，而是对 AI 产品信息架构的根本性改进。

模式五：画布/白板模式（Canvas）

用户和 AI 共同在一个二维空间中协作——AI 生成的内容不是线性的对话流，而是可以自由拖拽、连接、分组的节点。

典型产品：ChatGPT Canvas（文档和代码的并排编辑）、Miro AI（思维导图中的 AI 辅助）、tldraw

设计关键点：

适合需要非线性探索的任务（头脑风暴、架构设计、内容规划）
用户可以同时看到多个 AI 输出的变体并直接比较
AI 的修改需要在视觉上留下痕迹（diff 视图），用户可以逐条接受或拒绝

模式六：后台 Agent / 异步任务（Background Agent）

AI 在后台自主执行复杂任务，用户提交任务后可以离开，完成后收到通知。

典型产品：Devin（后台编程 Agent）、OpenAI Deep Research、Claude Deep Research

设计关键点：

需要提供 Dashboard 式的进度界面（当前步骤、已完成步骤、预计剩余时间）
用户必须能在任何时刻介入——暂停、修正方向、取消
最终输出应提供可审计的执行日志（Agent 做了什么、看了什么、为什么做这个决策）
关键决策点应主动推送通知让用户确认，而非事后才告知

与 c11 System 2 的关系：Test-Time Compute 场景（o1/R1 长时间推理）必然要求异步 UI——用户不能同步等待 30–180 秒的推理时间，产品需要从”实时对话”范式切换到”任务提交 + Dashboard 监控”范式。这是 System 2 模型对产品设计的最直接影响。

模式七：嵌入式 AI / Invisible AI（隐形 AI）

AI 能力完全嵌入现有产品流程中，用户甚至感知不到”在使用 AI”——拼写检查、智能排序、自动分类、推荐排列。

典型产品：Notion 的自动属性填充、Figma 的 AI 布局建议、Linear 的智能任务分配

设计关键点：

用户不需要主动触发 AI——AI 在后台持续工作
结果以微妙的方式呈现（排序变化、标签建议、高亮提示），不打断用户的主工作流
用户随时可以覆盖 AI 的判断（手动修改排序、删除标签），且覆盖操作应被记录为反馈信号
这是”AI 渗透率最高但 AI 存在感最低”的形态——也是最难设计的形态

设计洞察：Invisible AI 的设计挑战在于”恰好够用的透明度”——AI 改变了某个东西，用户需要知道是 AI 改的（否则会困惑），但又不能让 AI 的存在感太强（否则会分散注意力）。Notion AI 在属性填充时用浅紫色边框标注”AI 建议”是一个好的平衡点。

3.2.2 交互模式的选型逻辑

场景特征	推荐模式	理由
用户在做创作/编辑，需要实时辅助	行内补全 + 选区操作	零打断、零上下文切换
用户需要 AI 帮助理解/分析当前内容	侧边栏助手	AI 感知主工作区上下文
用户需要查询信息或完成结构化任务	Generative UI	输出即操作，无需手动转化
用户需要非线性探索或多方案比较	画布模式	二维空间支持并行比较
任务复杂且耗时，用户可以等待	后台 Agent	异步执行，进度可见
AI 能力嵌入日常工作流，无需用户触发	Invisible AI	最高渗透率、最低摩擦
以上都不匹配，或用户需要开放式对话	对话界面	灵活性最高，万能兜底

核心原则：对话界面应该是兜底选项，而非默认选项。

相关概念卡：Agent 与工具调用、Function Calling、RAG、System 2 TTC 模块一关联：c10 Function Calling 机制、c11 System 2 异步 UI 模块二关联：m201 Prompt 设计、m207 Agent 失败模式上一章：p301 交互范式跃迁下一章：p303 克服空白画布综合症

p302 - 七种 AI 交互设计模式

p302. 超越对话框：七种 AI 交互设计模式

3.2.1 七种核心交互模式

模式一：行内补全（Inline Completion）

模式二：选区操作（Selection-Based Action）

模式三：侧边栏助手（Sidebar Assistant）

模式四：Generative UI（动态生成界面）

模式五：画布/白板模式（Canvas）

模式六：后台 Agent / 异步任务（Background Agent）

模式七：嵌入式 AI / Invisible AI（隐形 AI）

3.2.2 交互模式的选型逻辑