A04 Grounding 与 Hallucination 产品策略 · 知识库

当一个知识产品对用户说”根据这份文件，答案是 X”时，它在做一件比”生成正确答案”更重的事：它在签署一份契约——承诺这句话可被追溯、可被推翻、可被审计。本节点要解决的问题是：grounding（接地）到底是一个技术指标，还是一个产品契约？ 主流话术把 grounding 等同于”接了 RAG、加了引用”，把幻觉治理等同于”换更大的模型”。本节点的判断主轴是：grounding 是产品层的契约设计，幻觉治理是契约的执行机制——二者都不能只靠模型，模型只是契约的执行人之一，且是最不可信的那个。

这是把 c13 - 幻觉的不可消除性的”幻觉是架构性特征、不可降至 0”这一理论判断，升级为”既然不可消除，产品就必须把它当成永久存在的失败模式来设计契约”的产品判断；也是把 m205 - RAG 生产环境：索引运维与评估体系里 RAGAS 的 Faithfulness 指标，从”工程评测的一个数字”升级为”产品契约的验收条款”。本节点不复述 RAG 的检索实现（见 c09 - RAG 架构）、不复述 Chunking 范式（见 m204 - RAG 生产环境：Chunking 与范式演进），只谈作为产品契约的 grounding 怎么设计、违约怎么处理。

§0 为什么是”契约”框架，而不是”管线”框架

读者脑中的默认框架大概率是”管线框架”：grounding = 检索 → 拼接 → 生成 → 加引用，是一条数据流水线。这个框架的致命缺陷是它把责任完全压在模型身上——只要管线跑通，就算”做了 grounding”。但实证数据反复证明这个假设破产：

Liu 等人（Evaluating Verifiability in Generative Search Engines, EMNLP 2023, arXiv:2304.09848）测了 Bing Chat、Perplexity、NeevaAI、YouChat 四个”已经接了检索”的生产系统，结论是：仅 51.5% 的生成句子被其引用完全支撑，且仅 74.5% 的引用确实支撑了所对应的声明。 斯坦福 HAI 的评价一针见血——这些系统”具有虚假可信度的表象（facade of trustworthiness）“。也就是说，管线全程跑通、引用全程显示，但接近一半的句子和它挂着的引用对不上。管线框架解释不了这件事，因为在管线框架里”挂上引用”就算成功。

契约框架换一个问法：grounding 不是”模型有没有看检索结果”，而是”产品向用户承诺了什么、用什么机制保证不违约、违约时谁负责”。在这个框架下，引用挂错就是违约，违约就要有兜底（拒答、降级、人工复核）。模型只是契约的执行人；产品才是契约的签署方和担保方。下面所有判断都建立在这个框架上。

§1 Grounding 的三层契约：从”挂引用”到”可证伪”

把 grounding 拆成三个递进的契约强度，是 PM 做产品定级的起点：

契约层	产品承诺	验收条款	典型违约
L1 来源可见	”答案旁边有来源链接”	引用 URL 可解析	URL 幻觉（捏造不存在的链接）
L2 声明可溯	”这句话来自这个来源的这一段”	句子级 attribution 准确	引用挂错（引用真实但不支撑该句）
L3 可证伪	”你能在 30 秒内核实或推翻这句话”	用户能定位到原文证据	证据深度不够（只到域名/页面，到不了段落）

关键判断：业界把 grounding 停在 L1，但 L1 几乎没有产品价值，反而制造虚假信任。 数据支撑——arXiv:2604.03173（Rao/Wong/Callison-Burch, Detecting and Correcting Reference Hallucinations in Commercial LLMs and Deep Research Agents, 2026，预印本，〔已核实(2026-06-12)·arXiv 确证存在且主题吻合；仍为预印本，同行评审状态未定〕）系统检测 URL 幻觉率：Gemini Deep Research 13.3%、不可解析 URL 率 18.5%；OpenAI Deep Research URL 幻觉 3.5%；Claude（3.5/3.7 Sonnet）3.0–3.2%；GPT 搜索模型 5.4–8.8%。一个反直觉的结论：Deep Research 类 Agent 生成的引用更多，但幻觉率反而高于普通搜索增强 LLM——引用数量与引用质量负相关。Perplexity 平均每条响应 21.87 条引用（来源：Whitehat SEO 研究，2025），数量远超 ChatGPT 的 7.92，但 Tow Center 研究（Columbia Journalism Review，2025-03）测 8 个 AI 搜索引擎、200 条新闻查询发现：Perplexity 失败率最低也有 37%，Grok-3 Search 高达 94%，整体超 60% 的查询返回不正确引用。

L3 才是真正的产品分水岭。aiopsschool.com（2026）提出的新标准是：引用不能只到页面/域名，要到具体段落/句子——因为在 zero-click 搜索时代，“AI 的回答 = 用户对品牌的直接体验”，用户不再点进原文，验证链一旦断裂就无法重建。这是 c13 - 幻觉的不可消除性里”可溯源设计”作为产品应对策略的具体落地：可溯源不是”给个链接”，是”给个能在 30 秒内推翻我的证据”。

§2 Hallucination 治理：四道闸门，没有一道是”换大模型”

既然幻觉不可消除（c13 - 幻觉的不可消除性的核心论断：Softmax 结构保证”从不留白”，概率采样必然产生自信的错误），产品就只能在幻觉发生后布防。按可靠性递增排四道闸门：

闸门1 外部接地（RAG / KG / Web Search）  → 把答案锚到可查证据上
闸门2 验证层（Judge Model / NLI 校验)   → 生成后核对"声明 vs 证据"是否一致
闸门3 拒答与降级（abstention / fallback) → 验不过就不答，或降级为"据称"
闸门4 不确定性外显 + 人工复核节点         → 把残余风险显式交还给用户/审核员

判断主轴的第一刀：闸门1 单独存在时几乎无效，必须配闸门2。 这正是评测专题 RAGAS 里 Faithfulness 指标的产品意义所在——Faithfulness 衡量的恰恰是”生成内容是否被检索上下文支撑”，它在工程里是一个评测数字，在产品里就是闸门2 的自动验收条款。MDPI Hallucination Mitigation for RAG: A Review（2025，arXiv 关联综述）确证：RAG 并未消除幻觉，法律问答场景仍有 10–60% 的幻觉/缺漏率；arXiv:2510.09106 进一步指出”检索噪声可覆盖模型本来正确的推理”——也就是说，接了 RAG 反而可能更错。所以闸门1 是必要不充分条件，没有闸门2 的实时一致性校验，闸门1 只是把幻觉的来源从”模型记忆”换成了”检索噪声”。

第二刀：闸门3 的拒答能力，是区分”玩具”与”产品”的硬指标。 一个知识产品敢不敢说”我不知道 / 我查不到 / 这条信息我无法确认”，决定了它能否进入高风险场景（医疗、法律、企业合规）。但拒答有产品代价：拒答率太高，用户觉得产品没用；太低，幻觉漏出。这是个不可调和的张力，没有最优解，只有按场景定阈值——这正是下面”判断主轴”小节要展开的。

§3 判断主轴：90% 的人在 grounding 上会搞错的四个点

错误一：把”有引用”当成”已接地”。

症状：产品上线时勾选”显示来源”，团队认为 grounding 完成。
为什么会错：Liu 等人（EMNLP 2023）实测仅 51.5% 句子被引用支撑——引用的存在与引用的有效是两件事。引用是 UI 元素，接地是契约履行。
正确做法：把”引用准确率”（attribution accuracy）作为发布门槛，用 NLI 模型或 LLM-as-Judge 离线抽检句子级一致性，纳入 CI（呼应 m205 - RAG 生产环境：索引运维与评估体系的自动化评估管线）。
真实反例：Tow Center（2025）测得整体超 60% 引用不正确，最好的 Perplexity 也有 37% 失败率——这些都是已上线的成熟产品。

错误二：用”模型够大就不幻觉”代替契约设计。

症状：选型会上”换 GPT-5.x / Claude 4.x 就解决幻觉”。
为什么会错：c13 - 幻觉的不可消除性已论证幻觉是架构性特征，更大模型降低概率但无法归零；且 RLHF 对齐税让模型更自信，校准更差（最不确定时听起来最自信）。
正确做法：把幻觉当永久失败模式，设计闸门2–4，而非赌模型升级。
真实反例：Lancet 研究（2026-05，StatNews/phys.org 报道）审计 250 万篇 PubMed 论文：2026 年初每 277 篇就有 1 篇含幻觉引用（2023 年为 1/2828），12 倍增长，2025 年估算约 14.69 万条 AI 生成伪引用——而这些论文出自最该有专业把关的学术界。模型能力的提升没有阻止幻觉污染扩散。

错误三：拒答阈值”一刀切”。

症状：全产品用同一个置信度阈值决定答/不答。
为什么会错：闲聊容忍度高、医疗容忍度近零，单一阈值要么在低风险场景显得僵硬，要么在高风险场景漏出幻觉。
正确做法：按”答错代价”分场景设阈值——把 c13 - 幻觉的不可消除性的”可靠性分级”落成每个 use case 一条契约。
真实反例：JMIR（Chelli et al., 2024，e53164，《Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews》）研究系统综述参考文献生成任务，参考文献幻觉率 GPT-3.5 39.6%、GPT-4 28.6%、Bard 高达 91.4%（来源：JMIR https://www.jmir.org/2024/1/e53164 ，截至 2026-06 核实）——但该研究是医学系统综述这一极端专业任务，不能泛化到通用搜索；这恰恰说明阈值必须随任务类型变，用通用场景的容忍度套医学场景就是灾难。

错误四：把不确定性藏起来，假装产品全知。

症状：UI 永远以同样的自信口吻输出，不区分”确信”与”勉强”。
为什么会错：模型校准失配（c13 - 幻觉的不可消除性）意味着系统自己也不知道哪句可靠，藏起不确定性 = 把校准责任转嫁给毫不知情的用户。
正确做法：不确定性外显 UI——“此信息可能不准确""未找到可靠来源”标注；但要权衡，arXiv:2601.14611（He & Liu, Seeing to Think?, 2026，预印本）实验四种引用界面（折叠/悬停卡/页脚/对齐侧栏）发现核心矛盾是流畅性 vs 强制反思：Hover Card 不打断工作流但容易被忽略，Aligned Sidebar 在高信息密度下提升批判性思维但增加认知负担。
真实反例：过度引用反而制造认知噪音，用户对 21.87 条引用的 Perplexity 并不比 7.92 条的 ChatGPT 更会去核实——堆引用不等于建信任。

§4 产品 PM 视角补盲：契约的商业与合规面

工程视角只看 Faithfulness 数字，产品视角要补三个”看走眼”点：

信任是契约的真正标的物，不是准确率。 aiopsschool.com（2026）指出引用首先是”信任信号（trust signal）“。一个 90% 准确但从不拒答、错得理直气壮的产品，比一个 80% 准确但会说”我不确定”的产品更危险——前者一旦被抓到一次硬伤，整份契约的信任就崩塌。PM 要管理的是信任的累计资产，单次准确率只是它的一阶导。
zero-click 把出版商权益变成 grounding 的外部性问题。 AI 引用了但用户不点击，出版商流量归零、验证链断裂（2025–2026 行业争议持续）。这是 grounding 契约的第三方成本：产品对用户履约的同时，对内容生产者违了约。这是 Perplexity 版权抓取争议的产品本质——不是技术问题，是契约的相对方搞错了。
合规场景下 grounding 是”可审计性”而非”准确性”的契约。 企业/医疗/法律要的不是”模型答得对”，是”每个答案可追溯、可删除、可举证”。这解释了为什么生产部署普遍倾向非参数记忆（RAG/KG）而非纯参数记忆——不是性能优势，是审计契约要求知识可定位、可删除（呼应 A02 检索去向决策中的”合规驱动非参数记忆”判断）。

§5 对手框架回应：接受 + 边界

对手一：长上下文派（“1M token 直接塞全文，幻觉自然降低，grounding 多此一举”）。 接受：长上下文确实减少了”检索没召回”导致的幻觉，对小语料场景，全塞进上下文比设计检索契约更省事。边界：RAGFlow（2025 年中评述，WebFetch 核实）记录的”信息洪水（information flooding）“效应——全文塞入导致”lost-in-the-middle”，且成本 O(N²) 禁止性高。更关键的是，长上下文解决的是”召回”，解决不了”attribution”：模型读了 1M token 也不会自动告诉你某句话来自第几段，L2/L3 契约依然缺位。长上下文是检索的替代品，不是 grounding 契约的替代品。

对手二：Agent 自主派（“让 Agent 自己决定何时检索、自己反思，比硬性契约灵活”）。 接受：Self-RAG（Asai et al., 2023/2024）的反思 token（IsREL/IsSUP/IsUSE）确实把”按需检索”做进了模型，比每次都查更省、更准；这是闸门2 的一种内生化实现。边界：反思 token 训练成本高，小模型上效果不稳定（仍是活跃研究，无定论）；且自主反思仍是模型在评判模型，校准失配问题没消失。产品契约的价值恰恰在于它是外部的、可审计的、不依赖模型自觉的——把验证权交还给一个独立的 Judge 或人工节点，而不是相信模型会诚实地反思自己。Agent 自主是优化项，不能取代契约这道外部防线。

对手三（Rick 未读框架，破 echo chamber）：B.C. Smith 的”calculative vs deliberative”区分（《On the Origin of Objects》）。 Smith 论证机器只有”演算（reckoning）“而无”判断（judgment）“——它能操作符号，但不”对世界负责（hold itself accountable to the world）“。这把 grounding 问题推到本体论层：模型的”引用”是符号匹配，不是对真实世界的承诺；真正能”对世界负责”的只有人类。产品契约的设计哲学因此清晰了——grounding 的终点不是让模型负责（它做不到），而是设计一个人能在其中负责的系统（闸门4 的人工复核节点不是冗余，是契约里唯一真正能担责的环节）。这也呼应 Weizenbaum 对”把判断委托给机器”的警告。

§6 跨域呼应：奥斯汀的”言语行为”与作为”承诺”的引用

调度 J.L. Austin 的言语行为理论（speech act）。Austin 区分”陈述（constative，有真假）“与”施为（performative，有得当/不当）“。当产品打出一句带引用的答案，它同时在做两件言语行为：陈述一个事实（可真可假），和施行一个承诺——“我担保这可被核实”。

这个框架改变了对幻觉的技术判断：业界一直把幻觉当陈述失败（说了假话），所以猛攻”准确率”。但 Austin 提示，引用挂错首先是施为失败（infelicity）——一个无效的承诺，就像”我宣布你们结为夫妻”却没有证婚资格。Liu 等人测得 74.5% 引用支撑率，剩下 25.5% 不是”说错了”，是”承诺本身不成立”。

这把产品策略从”提高准确率”重新定向为”只在能履约时才承诺”：能接地才挂引用，不能接地就拒答或降级为”据称”——宁可少承诺，不可空承诺。这正是闸门3 的哲学根据：拒答不是产品缺陷，是对承诺的诚实。一个永远施为、从不兑现的系统，用 Austin 的话说，是”滥用（abuse）“言语行为——这恰是当下多数 AI 知识产品的病灶。

§7 PM 决策启示

面试怎么用：被问”怎么解决幻觉”时，不要答”换大模型/加 RAG”。答：“幻觉不可消除（c13 - 幻觉的不可消除性），所以我把它当永久失败模式，设四道闸门——外部接地、Faithfulness 自动校验、按场景分级的拒答、不确定性外显，并把引用当成可证伪契约而非 UI 装饰。” 这一答区分了”读过博客”和”做过产品”。
选型怎么用：评估检索/搜索产品时，别比引用数量，比 L3 可证伪能力 + URL 幻觉率 + 拒答得当性。把”句子级 attribution 准确率”和”拒答阈值是否可按场景配置”写进选型矩阵。
复现怎么用：最小可运行的 grounding 契约 = RAG（闸门1）+ 一个 LLM-as-Judge 跑 Faithfulness（闸门2）+ 阈值触发拒答（闸门3）。用评测专题 RAGAS 的指标做验收，用 m205 - RAG 生产环境：索引运维与评估体系的黄金评估集做回归。

§8 与已有节点的关系

对 c13 - 幻觉的不可消除性：深化 + 操作化。c13 给出”幻觉是架构性特征、不可消除、需可靠性分级应对”的理论判断；本节点把它落成”四道闸门 + 三层契约”的产品策略，并补上 c13 未展开的”拒答的产品张力""不确定性外显的 UX 权衡”。不复述 c13 的五类幻觉与校准机制。
对评测专题 RAGAS（Faithfulness）：视角转换。0412 把 Faithfulness 当工程评测指标；本节点把它升级为”闸门2 的产品验收条款”——同一个数字，从”我们测得多少”变成”我们向用户承诺多少”。
对 c09 - RAG 架构 / m204 - RAG 生产环境：Chunking 与范式演进 / m205 - RAG 生产环境：索引运维与评估体系：互补不复述。RAG 系列讲检索”怎么实现得更准”；本节点讲”实现之后，产品向用户承诺什么、违约怎么办”——是知识作为产品的设计层，不是技术层。
对 Perplexity：产品层实证。Perplexity 的 citation-first 架构与引用错位争议，是本节点”L1 引用可见 ≠ L3 可证伪”判断的活样本。

§9 关联节点

核心（必读）

延伸（可选）

修订日志

2026-06-11 P3.4 校链：0412 评测专题已入库，将 §3/§7/§9 共 4 处〔跨专题待落盘〕降级文本恢复为真链 评测专题，删除 staging 注解。
R0（2026-06-07）：首稿。建立”grounding = 产品契约”主框架；三层契约（L1/L2/L3）+ 四道闸门 + 四个判断主轴错位点；接入 Liu et al. EMNLP 2023、Tow Center 2025、Lancet 2026、arXiv:2604.03173 等接地证据；对手框架接长上下文派/Agent 自主派/B.C. Smith；跨域呼应调度 Austin 言语行为理论；与 c13/0412/c09/m205 建立升级对照。
2026-06-12 内审·arXiv 联网核实：清了 2 个 inline arXiv 引用，存疑 0。WebFetch 确证 arXiv:2604.03173（Rao/Wong/Callison-Burch, Detecting and Correcting Reference Hallucinations in Commercial LLMs and Deep Research Agents, 2026）存在且主题吻合，§3 inline〔同行评审状态待核实〕改为〔已核实(2026-06-12)·arXiv 确证〕；并顺手订正 §不确定性 UI 处 arXiv:2601.14611（He & Liu, Seeing to Think?）旧写年份”2025”→“2026”、补作者/标题。两篇均保留预印本同行评审未定限定。
〔arXiv 存在性已核实(2026-06-12)·同行评审状态仍未定〕arXiv:2604.03173（URL 幻觉检测，Rao et al.）、arXiv:2601.14611（引用界面实验，He & Liu）——两篇均经 WebFetch 确证为真实 arXiv 预印本且主题吻合，唯同行评审状态因属 2026 预印本无法核定，引用时保留”预印本”限定。〔待核实项·非 arXiv〕Whitehat SEO 21.87 引用数为单一来源实测，未独立复核。
2026-06-11 P3.1 接地修复：§3 错误三 JMIR e53164 反例旧值”Gemini 76% / ChatGPT-4o 20%“系捏造（模型名与数值均错），订正为 Chelli et al. 2024 原文真值 GPT-3.5 39.6% / GPT-4 28.6% / Bard 91.4%，并补全文标题与 JMIR URL（来源：https://www.jmir.org/2024/1/e53164 ，WebFetch+WebSearch 2026-06-11 核实，与 R03 订正一致）。