p306. 数据飞轮与反馈回路设计

数据飞轮是 AI 产品的核心护城河机制——用户使用产品 → 产生数据 → 数据训练模型 → 模型变强 → 吸引更多用户。但飞轮的转速取决于一个被严重低估的设计问题：如何在不增加用户负担的前提下，采集最高质量的训练数据？

3.6.1 反馈信号的光谱

从”信息密度最低但采集成本最低”到”信息密度最高但采集成本最高”：

关键洞察：编辑式反馈是信息密度和实际采集量的最佳平衡点。它提供了精确的 (error_location, correct_value) 配对，直接可用于 SFT 和 DPO 训练，且采集成本不高（用户编辑本来就是正常工作流的一部分）。

机制：每条回答下方有 👍/👎 按钮，点踩后可选择原因（不准确/无用/有害等），可选地提供文本反馈。

数据价值：获得的是 (prompt, response, 好/坏) 的三元组，可直接用于 RLHF/DPO 训练（c04 §4.3 偏好对齐原理）。

局限：

设计启示：简单显式反馈是必要的（几乎零成本实现），但不能作为唯一数据源。

机制：生成 4 张图的网格 → 用户选择”放大（Upscale）“某一张或”生成变体（Variation）“。用户不需要做任何显式评价——选择行为本身就是偏好数据。

数据价值：

设计哲学：把数据采集嵌入到用户的核心工作流中，让”提供反馈”和”使用产品”成为同一个动作。用户不觉得自己在”帮 AI 训练”，TA 只是在”挑选自己喜欢的图”。

机制：在用户编码时自动弹出代码建议。用户按 Tab 接受 = 正样本；继续打字覆盖建议 = 负样本；用户最终写出的代码 = ground truth。

数据价值：

每一次 Tab / 忽略都是一条偏好数据点
更珍贵的是”用户没有接受建议、但最终写出了什么”——这提供了 (rejected_suggestion, actual_code) 的配对，是极高质量的 DPO 训练数据
采纳率本身就是产品质量的核心指标——Copilot 的采纳率从早期 ~25% 提升到现在 ~40%+

设计哲学：让反馈的成本趋近于零。Tab 是打字过程中最自然的动作之一，用户无需思考”我是否应该提供反馈”。

维度	ChatGPT 显式投票	Midjourney 行为即反馈	Copilot Tab 哲学
反馈率	< 5%	~80%（每次生成都有选择）	~100%（每次补全都有 Tab/忽略）
数据粒度	全局好/坏	图像级别的偏好对	Token/行级别的偏好对
额外操作	需要主动点击	与使用行为合并	零额外操作
适用场景	对话型产品的基础反馈	多变体选择的创意产品	行内补全类产品

原则一：反馈采集不应增加用户完成任务的步骤数 最好是零额外步骤（Copilot 模式）；最差也不应超过一步（ChatGPT 的点赞）。

原则二：优先设计隐式反馈，显式反馈作为补充 大多数用户不会主动反馈，但所有用户都会”使用”产品。隐式信号量大但信噪比低，显式信号量少但质量高——两者结合才能形成完整的数据来源。

原则三：反馈粒度应与模型改进的粒度匹配 如果用户只能给”全局好/坏”的评价，但你的模型需要”第三段第二句话有事实错误”的粒度，那你的数据采集设计和模型需求是脱节的——这意味着采集到的数据无法被有效用于训练。

原则四：形成闭环 采集的数据必须真正被用于模型改进，且改进效果对用户可见。否则用户的反馈动力会迅速衰减（“我点了那么多反馈，也没见变好”）。可以通过 changelogs、功能更新的推送让用户感知到”我的反馈起了作用”。

新产品在用户量极少时，没有足够的反馈数据来训练模型——但没有好的模型，就无法吸引足够的用户形成反馈数据。这是 AI 产品的”先有鸡还是先有蛋”困境。

冷启动解法：

数据飞轮的隐私合规：在设计数据收集机制时，必须考虑用户数据的隐私保护——尤其是当用户在产品中处理敏感文档（法律、医疗、财务信息）时。数据去标识化、差分隐私、用户级数据删除权，是数据飞轮设计的合规前提。