A04 Grounding 与 Hallucination 产品策略
当一个知识产品对用户说”根据这份文件,答案是 X”时,它在做一件比”生成正确答案”更重的事:它在签署一份契约——承诺这句话可被追溯、可被推翻、可被审计。本节点要解决的问题是:grounding(接地)到底是一个技术指标,还是一个产品契约? 主流话术把 grounding 等同于”接了 RAG、加了引用”,把幻觉治理等同于”换更大的模型”。本节点的判断主轴是:grounding 是产品层的契约设计,幻觉治理是契约的执行机制——二者都不能只靠模型,模型只是契约的执行人之一,且是最不可信的那个。
这是把 c13 - 幻觉的不可消除性 的”幻觉是架构性特征、不可降至 0”这一理论判断,升级为”既然不可消除,产品就必须把它当成永久存在的失败模式来设计契约”的产品判断;也是把 m205 - RAG 生产环境:索引运维与评估体系 里 RAGAS 的 Faithfulness 指标,从”工程评测的一个数字”升级为”产品契约的验收条款”。本节点不复述 RAG 的检索实现(见 c09 - RAG 架构)、不复述 Chunking 范式(见 m204 - RAG 生产环境:Chunking 与范式演进),只谈作为产品契约的 grounding 怎么设计、违约怎么处理。
§0 为什么是”契约”框架,而不是”管线”框架
读者脑中的默认框架大概率是”管线框架”:grounding = 检索 → 拼接 → 生成 → 加引用,是一条数据流水线。这个框架的致命缺陷是它把责任完全压在模型身上——只要管线跑通,就算”做了 grounding”。但实证数据反复证明这个假设破产:
Liu 等人(Evaluating Verifiability in Generative Search Engines, EMNLP 2023, arXiv:2304.09848)测了 Bing Chat、Perplexity、NeevaAI、YouChat 四个”已经接了检索”的生产系统,结论是:仅 51.5% 的生成句子被其引用完全支撑,且仅 74.5% 的引用确实支撑了所对应的声明。 斯坦福 HAI 的评价一针见血——这些系统”具有虚假可信度的表象(facade of trustworthiness)“。也就是说,管线全程跑通、引用全程显示,但接近一半的句子和它挂着的引用对不上。管线框架解释不了这件事,因为在管线框架里”挂上引用”就算成功。
契约框架换一个问法:grounding 不是”模型有没有看检索结果”,而是”产品向用户承诺了什么、用什么机制保证不违约、违约时谁负责”。在这个框架下,引用挂错就是违约,违约就要有兜底(拒答、降级、人工复核)。模型只是契约的执行人;产品才是契约的签署方和担保方。下面所有判断都建立在这个框架上。
§1 Grounding 的三层契约:从”挂引用”到”可证伪”
把 grounding 拆成三个递进的契约强度,是 PM 做产品定级的起点:
| 契约层 | 产品承诺 | 验收条款 | 典型违约 |
|---|---|---|---|
| L1 来源可见 | ”答案旁边有来源链接” | 引用 URL 可解析 | URL 幻觉(捏造不存在的链接) |
| L2 声明可溯 | ”这句话来自这个来源的这一段” | 句子级 attribution 准确 | 引用挂错(引用真实但不支撑该句) |
| L3 可证伪 | ”你能在 30 秒内核实或推翻这句话” | 用户能定位到原文证据 | 证据深度不够(只到域名/页面,到不了段落) |
关键判断:业界把 grounding 停在 L1,但 L1 几乎没有产品价值,反而制造虚假信任。 数据支撑——arXiv:2604.03173(Rao/Wong/Callison-Burch, Detecting and Correcting Reference Hallucinations in Commercial LLMs and Deep Research Agents, 2026,预印本,〔已核实(2026-06-12)·arXiv 确证存在且主题吻合;仍为预印本,同行评审状态未定〕)系统检测 URL 幻觉率:Gemini Deep Research 13.3%、不可解析 URL 率 18.5%;OpenAI Deep Research URL 幻觉 3.5%;Claude(3.5/3.7 Sonnet)3.0–3.2%;GPT 搜索模型 5.4–8.8%。一个反直觉的结论:Deep Research 类 Agent 生成的引用更多,但幻觉率反而高于普通搜索增强 LLM——引用数量与引用质量负相关。Perplexity 平均每条响应 21.87 条引用(来源:Whitehat SEO 研究,2025),数量远超 ChatGPT 的 7.92,但 Tow Center 研究(Columbia Journalism Review,2025-03)测 8 个 AI 搜索引擎、200 条新闻查询发现:Perplexity 失败率最低也有 37%,Grok-3 Search 高达 94%,整体超 60% 的查询返回不正确引用。
L3 才是真正的产品分水岭。aiopsschool.com(2026)提出的新标准是:引用不能只到页面/域名,要到具体段落/句子——因为在 zero-click 搜索时代,“AI 的回答 = 用户对品牌的直接体验”,用户不再点进原文,验证链一旦断裂就无法重建。这是 c13 - 幻觉的不可消除性 里”可溯源设计”作为产品应对策略的具体落地:可溯源不是”给个链接”,是”给个能在 30 秒内推翻我的证据”。
§2 Hallucination 治理:四道闸门,没有一道是”换大模型”
既然幻觉不可消除(c13 - 幻觉的不可消除性 的核心论断:Softmax 结构保证”从不留白”,概率采样必然产生自信的错误),产品就只能在幻觉发生后布防。按可靠性递增排四道闸门:
闸门1 外部接地(RAG / KG / Web Search) → 把答案锚到可查证据上
闸门2 验证层(Judge Model / NLI 校验) → 生成后核对"声明 vs 证据"是否一致
闸门3 拒答与降级(abstention / fallback) → 验不过就不答,或降级为"据称"
闸门4 不确定性外显 + 人工复核节点 → 把残余风险显式交还给用户/审核员
判断主轴的第一刀:闸门1 单独存在时几乎无效,必须配闸门2。 这正是 评测专题 RAGAS 里 Faithfulness 指标的产品意义所在——Faithfulness 衡量的恰恰是”生成内容是否被检索上下文支撑”,它在工程里是一个评测数字,在产品里就是闸门2 的自动验收条款。MDPI Hallucination Mitigation for RAG: A Review(2025,arXiv 关联综述)确证:RAG 并未消除幻觉,法律问答场景仍有 10–60% 的幻觉/缺漏率;arXiv:2510.09106 进一步指出”检索噪声可覆盖模型本来正确的推理”——也就是说,接了 RAG 反而可能更错。所以闸门1 是必要不充分条件,没有闸门2 的实时一致性校验,闸门1 只是把幻觉的来源从”模型记忆”换成了”检索噪声”。
第二刀:闸门3 的拒答能力,是区分”玩具”与”产品”的硬指标。 一个知识产品敢不敢说”我不知道 / 我查不到 / 这条信息我无法确认”,决定了它能否进入高风险场景(医疗、法律、企业合规)。但拒答有产品代价:拒答率太高,用户觉得产品没用;太低,幻觉漏出。这是个不可调和的张力,没有最优解,只有按场景定阈值——这正是下面”判断主轴”小节要展开的。
§3 判断主轴:90% 的人在 grounding 上会搞错的四个点
错误一:把”有引用”当成”已接地”。
- 症状:产品上线时勾选”显示来源”,团队认为 grounding 完成。
- 为什么会错:Liu 等人(EMNLP 2023)实测仅 51.5% 句子被引用支撑——引用的存在与引用的有效是两件事。引用是 UI 元素,接地是契约履行。
- 正确做法:把”引用准确率”(attribution accuracy)作为发布门槛,用 NLI 模型或 LLM-as-Judge 离线抽检句子级一致性,纳入 CI(呼应 m205 - RAG 生产环境:索引运维与评估体系 的自动化评估管线)。
- 真实反例:Tow Center(2025)测得整体超 60% 引用不正确,最好的 Perplexity 也有 37% 失败率——这些都是已上线的成熟产品。
错误二:用”模型够大就不幻觉”代替契约设计。
- 症状:选型会上”换 GPT-5.x / Claude 4.x 就解决幻觉”。
- 为什么会错:c13 - 幻觉的不可消除性 已论证幻觉是架构性特征,更大模型降低概率但无法归零;且 RLHF 对齐税让模型更自信,校准更差(最不确定时听起来最自信)。
- 正确做法:把幻觉当永久失败模式,设计闸门2–4,而非赌模型升级。
- 真实反例:Lancet 研究(2026-05,StatNews/phys.org 报道)审计 250 万篇 PubMed 论文:2026 年初每 277 篇就有 1 篇含幻觉引用(2023 年为 1/2828),12 倍增长,2025 年估算约 14.69 万条 AI 生成伪引用——而这些论文出自最该有专业把关的学术界。模型能力的提升没有阻止幻觉污染扩散。
错误三:拒答阈值”一刀切”。
- 症状:全产品用同一个置信度阈值决定答/不答。
- 为什么会错:闲聊容忍度高、医疗容忍度近零,单一阈值要么在低风险场景显得僵硬,要么在高风险场景漏出幻觉。
- 正确做法:按”答错代价”分场景设阈值——把 c13 - 幻觉的不可消除性 的”可靠性分级”落成每个 use case 一条契约。
- 真实反例:JMIR(Chelli et al., 2024,e53164,《Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews》)研究系统综述参考文献生成任务,参考文献幻觉率 GPT-3.5 39.6%、GPT-4 28.6%、Bard 高达 91.4%(来源:JMIR https://www.jmir.org/2024/1/e53164 ,截至 2026-06 核实)——但该研究是医学系统综述这一极端专业任务,不能泛化到通用搜索;这恰恰说明阈值必须随任务类型变,用通用场景的容忍度套医学场景就是灾难。
错误四:把不确定性藏起来,假装产品全知。
- 症状:UI 永远以同样的自信口吻输出,不区分”确信”与”勉强”。
- 为什么会错:模型校准失配(c13 - 幻觉的不可消除性)意味着系统自己也不知道哪句可靠,藏起不确定性 = 把校准责任转嫁给毫不知情的用户。
- 正确做法:不确定性外显 UI——“此信息可能不准确""未找到可靠来源”标注;但要权衡,arXiv:2601.14611(He & Liu, Seeing to Think?, 2026,预印本)实验四种引用界面(折叠/悬停卡/页脚/对齐侧栏)发现核心矛盾是流畅性 vs 强制反思:Hover Card 不打断工作流但容易被忽略,Aligned Sidebar 在高信息密度下提升批判性思维但增加认知负担。
- 真实反例:过度引用反而制造认知噪音,用户对 21.87 条引用的 Perplexity 并不比 7.92 条的 ChatGPT 更会去核实——堆引用不等于建信任。
§4 产品 PM 视角补盲:契约的商业与合规面
工程视角只看 Faithfulness 数字,产品视角要补三个”看走眼”点:
-
信任是契约的真正标的物,不是准确率。 aiopsschool.com(2026)指出引用首先是”信任信号(trust signal)“。一个 90% 准确但从不拒答、错得理直气壮的产品,比一个 80% 准确但会说”我不确定”的产品更危险——前者一旦被抓到一次硬伤,整份契约的信任就崩塌。PM 要管理的是信任的累计资产,单次准确率只是它的一阶导。
-
zero-click 把出版商权益变成 grounding 的外部性问题。 AI 引用了但用户不点击,出版商流量归零、验证链断裂(2025–2026 行业争议持续)。这是 grounding 契约的第三方成本:产品对用户履约的同时,对内容生产者违了约。这是 Perplexity 版权抓取争议的产品本质——不是技术问题,是契约的相对方搞错了。
-
合规场景下 grounding 是”可审计性”而非”准确性”的契约。 企业/医疗/法律要的不是”模型答得对”,是”每个答案可追溯、可删除、可举证”。这解释了为什么生产部署普遍倾向非参数记忆(RAG/KG)而非纯参数记忆——不是性能优势,是审计契约要求知识可定位、可删除(呼应 A02 检索去向决策 中的”合规驱动非参数记忆”判断)。
§5 对手框架回应:接受 + 边界
对手一:长上下文派(“1M token 直接塞全文,幻觉自然降低,grounding 多此一举”)。 接受:长上下文确实减少了”检索没召回”导致的幻觉,对小语料场景,全塞进上下文比设计检索契约更省事。边界:RAGFlow(2025 年中评述,WebFetch 核实)记录的”信息洪水(information flooding)“效应——全文塞入导致”lost-in-the-middle”,且成本 O(N²) 禁止性高。更关键的是,长上下文解决的是”召回”,解决不了”attribution”:模型读了 1M token 也不会自动告诉你某句话来自第几段,L2/L3 契约依然缺位。长上下文是检索的替代品,不是 grounding 契约的替代品。
对手二:Agent 自主派(“让 Agent 自己决定何时检索、自己反思,比硬性契约灵活”)。 接受:Self-RAG(Asai et al., 2023/2024)的反思 token(IsREL/IsSUP/IsUSE)确实把”按需检索”做进了模型,比每次都查更省、更准;这是闸门2 的一种内生化实现。边界:反思 token 训练成本高,小模型上效果不稳定(仍是活跃研究,无定论);且自主反思仍是模型在评判模型,校准失配问题没消失。产品契约的价值恰恰在于它是外部的、可审计的、不依赖模型自觉的——把验证权交还给一个独立的 Judge 或人工节点,而不是相信模型会诚实地反思自己。Agent 自主是优化项,不能取代契约这道外部防线。
对手三(Rick 未读框架,破 echo chamber):B.C. Smith 的”calculative vs deliberative”区分(《On the Origin of Objects》)。 Smith 论证机器只有”演算(reckoning)“而无”判断(judgment)“——它能操作符号,但不”对世界负责(hold itself accountable to the world)“。这把 grounding 问题推到本体论层:模型的”引用”是符号匹配,不是对真实世界的承诺;真正能”对世界负责”的只有人类。产品契约的设计哲学因此清晰了——grounding 的终点不是让模型负责(它做不到),而是设计一个人能在其中负责的系统(闸门4 的人工复核节点不是冗余,是契约里唯一真正能担责的环节)。这也呼应 Weizenbaum 对”把判断委托给机器”的警告。
§6 跨域呼应:奥斯汀的”言语行为”与作为”承诺”的引用
调度 J.L. Austin 的言语行为理论(speech act)。Austin 区分”陈述(constative,有真假)“与”施为(performative,有得当/不当)“。当产品打出一句带引用的答案,它同时在做两件言语行为:陈述一个事实(可真可假),和施行一个承诺——“我担保这可被核实”。
这个框架改变了对幻觉的技术判断:业界一直把幻觉当陈述失败(说了假话),所以猛攻”准确率”。但 Austin 提示,引用挂错首先是施为失败(infelicity)——一个无效的承诺,就像”我宣布你们结为夫妻”却没有证婚资格。Liu 等人测得 74.5% 引用支撑率,剩下 25.5% 不是”说错了”,是”承诺本身不成立”。
这把产品策略从”提高准确率”重新定向为”只在能履约时才承诺”:能接地才挂引用,不能接地就拒答或降级为”据称”——宁可少承诺,不可空承诺。这正是闸门3 的哲学根据:拒答不是产品缺陷,是对承诺的诚实。一个永远施为、从不兑现的系统,用 Austin 的话说,是”滥用(abuse)“言语行为——这恰是当下多数 AI 知识产品的病灶。
§7 PM 决策启示
- 面试怎么用:被问”怎么解决幻觉”时,不要答”换大模型/加 RAG”。答:“幻觉不可消除(c13 - 幻觉的不可消除性),所以我把它当永久失败模式,设四道闸门——外部接地、Faithfulness 自动校验、按场景分级的拒答、不确定性外显,并把引用当成可证伪契约而非 UI 装饰。” 这一答区分了”读过博客”和”做过产品”。
- 选型怎么用:评估检索/搜索产品时,别比引用数量,比 L3 可证伪能力 + URL 幻觉率 + 拒答得当性。把”句子级 attribution 准确率”和”拒答阈值是否可按场景配置”写进选型矩阵。
- 复现怎么用:最小可运行的 grounding 契约 = RAG(闸门1)+ 一个 LLM-as-Judge 跑 Faithfulness(闸门2)+ 阈值触发拒答(闸门3)。用 评测专题 RAGAS 的指标做验收,用 m205 - RAG 生产环境:索引运维与评估体系 的黄金评估集做回归。
§8 与已有节点的关系
- 对 c13 - 幻觉的不可消除性:深化 + 操作化。c13 给出”幻觉是架构性特征、不可消除、需可靠性分级应对”的理论判断;本节点把它落成”四道闸门 + 三层契约”的产品策略,并补上 c13 未展开的”拒答的产品张力""不确定性外显的 UX 权衡”。不复述 c13 的五类幻觉与校准机制。
- 对 评测专题 RAGAS(Faithfulness):视角转换。0412 把 Faithfulness 当工程评测指标;本节点把它升级为”闸门2 的产品验收条款”——同一个数字,从”我们测得多少”变成”我们向用户承诺多少”。
- 对 c09 - RAG 架构 / m204 - RAG 生产环境:Chunking 与范式演进 / m205 - RAG 生产环境:索引运维与评估体系:互补不复述。RAG 系列讲检索”怎么实现得更准”;本节点讲”实现之后,产品向用户承诺什么、违约怎么办”——是知识作为产品的设计层,不是技术层。
- 对 Perplexity:产品层实证。Perplexity 的 citation-first 架构与引用错位争议,是本节点”L1 引用可见 ≠ L3 可证伪”判断的活样本。
§9 关联节点
核心(必读)
- c13 - 幻觉的不可消除性
- 评测专题(RAGAS)
- c09 - RAG 架构
- m205 - RAG 生产环境:索引运维与评估体系
- 幻觉
- Perplexity
延伸(可选)
- m203 - RAG 生产环境:Embedding 与文档解析
- m204 - RAG 生产环境:Chunking 与范式演进
- RAG
- Embedding
- ChatGPT
- Gemini
- Agent
- 0117社会学
- p305 - 信任架构与可解释性设计
- p304 - 防御性 UX:对抗延迟与幻觉
- AI PM 知识图谱·总索引
修订日志
- 2026-06-11 P3.4 校链:0412 评测专题已入库,将 §3/§7/§9 共 4 处〔跨专题待落盘〕降级文本恢复为真链
评测专题,删除 staging 注解。 - R0(2026-06-07):首稿。建立”grounding = 产品契约”主框架;三层契约(L1/L2/L3)+ 四道闸门 + 四个判断主轴错位点;接入 Liu et al. EMNLP 2023、Tow Center 2025、Lancet 2026、arXiv:2604.03173 等接地证据;对手框架接 长上下文派/Agent 自主派/B.C. Smith;跨域呼应调度 Austin 言语行为理论;与 c13/0412/c09/m205 建立升级对照。
- 2026-06-12 内审·arXiv 联网核实:清了 2 个 inline arXiv 引用,存疑 0。WebFetch 确证 arXiv:2604.03173(Rao/Wong/Callison-Burch, Detecting and Correcting Reference Hallucinations in Commercial LLMs and Deep Research Agents, 2026)存在且主题吻合,§3 inline〔同行评审状态待核实〕改为〔已核实(2026-06-12)·arXiv 确证〕;并顺手订正 §不确定性 UI 处 arXiv:2601.14611(He & Liu, Seeing to Think?)旧写年份”2025”→“2026”、补作者/标题。两篇均保留预印本同行评审未定限定。
- 〔arXiv 存在性已核实(2026-06-12)·同行评审状态仍未定〕arXiv:2604.03173(URL 幻觉检测,Rao et al.)、arXiv:2601.14611(引用界面实验,He & Liu)——两篇均经 WebFetch 确证为真实 arXiv 预印本且主题吻合,唯同行评审状态因属 2026 预印本无法核定,引用时保留”预印本”限定。〔待核实项·非 arXiv〕Whitehat SEO 21.87 引用数为单一来源实测,未独立复核。
- 2026-06-11 P3.1 接地修复:§3 错误三 JMIR e53164 反例旧值”Gemini 76% / ChatGPT-4o 20%“系捏造(模型名与数值均错),订正为 Chelli et al. 2024 原文真值 GPT-3.5 39.6% / GPT-4 28.6% / Bard 91.4%,并补全文标题与 JMIR URL(来源:https://www.jmir.org/2024/1/e53164 ,WebFetch+WebSearch 2026-06-11 核实,与 R03 订正一致)。