S01 知识系统分层剖面 · 知识库

把”知识作为产品”拆成可独立替换的六层剖面——知识源、检索路由、grounding、引用与溯源、时效更新、权限治理——并回答一个 PM 在选型会上必须当场答出的问题：当用户抱怨”答案过期了 / 引用是假的 / 看到了不该看的内容”时，故障究竟落在哪一层，以及哪两层之间的耦合点先断了。 本节点的视角不是”怎么把 RAG 调好”（那是 c09 - RAG 架构和 m205 - RAG 生产环境：索引运维与评估体系的工作），而是把整条知识管线当成一个有产品边界、有用户契约、有责任分层的知识产品来解剖。

§0 为什么是”六层产品剖面”而不是”RAG 管线图”

业界讲知识系统的默认框架是”RAG 管线”：文档 → 切块 → 嵌入 → 索引 → 检索 → 重排 → 生成。这张图是对的，但它是工程实现视图——它假设了”用 RAG”这个答案，然后把注意力全放在管线内部的调参上。对一个 PM 来说，这张图遗漏了三件致命的事：(1) 它没有”要不要检索”这个决策层（参数记忆 / Web Search / KG / RAG 的去向选择本身就是产品决策，见本专题 03 架构剖面同级节点）；(2) 它把”引用”和”grounding”混为一谈，而生产事故恰恰发生在两者不一致时；(3) 它完全没有权限层——而企业 KM 的第一杀手不是检索精度，是越权泄露。

所以本节点换一个切法：按”产品责任”分层，而不是按”数据流动”分层。六层各自有独立的产品决策、独立的失败模式、独立的 PM 清单，且——这是判断主轴——层与层之间存在致命耦合，单层做到 9 分、耦合点断裂，整个系统体感仍是 3 分。

flowchart TD
    Q[用户 query] --> L2{L2 检索路由<br/>去哪取知识}
    L2 -->|参数记忆| P[模型权重]
    L2 -->|实时| W[Web Search]
    L2 -->|私有| L1[L1 知识源<br/>文档/KG/向量库]
    L1 --> L3[L3 grounding<br/>把检索内容约束进生成]
    P --> L3
    W --> L3
    L3 --> L4[L4 引用与溯源<br/>声明↔证据对齐]
    L5[L5 时效更新<br/>索引新鲜度/半衰期] -.滋养.-> L1
    L5 -.约束.-> L2
    L6[L6 权限治理<br/>ACL/IAM 过滤] -.闸门.-> L1
    L6 -.闸门.-> L2
    L4 --> A[答案 + 可信引用]
    classDef coupling fill:#ffe6e6,stroke:#c00
    class L2,L5,L6 coupling

[!note] 框架级辨析的赌注我赌”产品责任分层”比”数据流分层”对 PM 更有用——因为责任分层能直接映射到团队 owner、SLA 和事故归因。但它的边界是：在纯算法优化阶段（比如调 reranker），工程视图反而更顺手。两张图是互补的，不是替代关系。

§1 L1 知识源层：知识从哪里来，以什么形态存在

知识源层决定了”知识的物理形态”——非结构化文本、向量库、知识图谱、还是模型参数本身。这一层的核心产品决策不是”用哪个向量数据库”，而是 non-parametric vs parametric 的根本分野：知识压进权重（低延迟、零外部依赖、但冻结于训练截止、难审计、难删除），还是放在外部库（可更新、可审计、可删除、合规友好，但引入检索延迟与噪声）。来源：Wang et al., Knowledge Mechanisms in LLMs: A Survey and Perspective, EMNLP 2024 Findings（arXiv:2407.15017）。

产品结论很反直觉：大多数企业生产部署倾向非参数记忆，主因不是性能，而是合规要求”可审计 + 可删除”。 GDPR 的”被遗忘权”无法在模型权重上执行——你删不掉一个已经压进 175B 参数里的事实，但你能从向量库里删掉一个 chunk。这一条决定了 L1 的形态选择往往是合规驱动而非技术驱动。

L1 形态	适用	产品代价	PM 清单
参数记忆	通用常识、无时效推理	不可审计、不可删除、知识冻结	是否有合规删除义务？有→禁用纯参数
向量库	语义相似匹配、非结构文本	检索噪声、需独立 ACL	chunk 粒度与权限粒度是否一致？
知识图谱	多跳推理、实体关系明确	构建成本高、动态数据难维护	知识是”写少读多”吗？频繁更新→慎用 KG

§2 L2 检索路由层：要不要检索、去哪检索

这是被”RAG 管线图”完全吞掉的一层，却是知识产品最高杠杆的决策点。路由层回答：这个 query 该用参数记忆直接答（快、可能过期），还是触发 Web Search（最新、但引用易错），还是查私有 KG/向量库（可控、但有覆盖盲区）？

传统 RAG 的死路是”每次都检索”——而 Self-RAG（Asai et al., 2023/2024）用反思 token（IsREL/IsSUP/IsUSE）让模型按需触发检索，FLARE（Jiang et al., 2023）在生成置信度下降时才主动检索，A-RAG（Du et al., arXiv:2602.03442, 2026）则暴露关键词/语义/chunk 读取三类工具让代理分层选择。这条演化线的产品含义是：路由不是一个 if-else，而是一个可被模型参与的决策接口。

[!warning] 业界对手立场（接受 + 边界） RAGFlow 在 2025 年评述中点名”Agents 替代 RAG”是”market-driven stunt”——接受其判断：Agent 确实依赖 RAG 做领域知识、对话历史、工具元数据三类检索，路由层是 Agent 的底座而非对立面。但坚持边界：路由层若设计成纯”Agent 自主决定”，在小模型上反思 token 效果不稳定（Self-RAG 的已知短板），生产系统仍需要一层确定性 fallback。我赌的是”混合路由”（规则 + 模型）而非纯 agentic 路由。

§3 L3 grounding 层：把检索到的东西真正约束进生成

grounding 层负责”让模型只说证据支持的话”。这一层和 L4 引用层最容易被混为一谈——但它们是两件事：grounding 是”生成是否被证据约束”，引用是”展示了哪些证据”。 一个系统可以 grounding 很差（自由发挥）却引用很多（贴一堆链接），这正是假溯源的温床（见 §7 致命耦合 B）。

grounding 的硬数据触目惊心：Liu et al.（EMNLP 2023, arXiv:2304.09848）测试 Bing Chat / Perplexity / NeevaAI / YouChat，发现仅 51.5% 的生成句子被引用完全支撑，仅 74.5% 的引用确实支撑了对应声明——斯坦福 HAI 称之为”虚假可信度的表象（facade of trustworthiness）“。grounding 层的产品决策因此是：grounding 强度（hard constraint 拒答 vs soft hint）与覆盖率（要求每句都有证据 vs 关键声明有证据）如何权衡。法律问答场景即便上了 RAG 仍有 10-60% 幻觉/缺漏率（来源：MDPI Mathematics, Hallucination Mitigation for RAG: A Review, 2025），说明 grounding 不是 RAG 的免费赠品，是要单独投资的产品能力。

§4 L4 引用与溯源层：声明与证据如何对齐、如何展示

引用层是知识产品的信任 UI。同样的 grounding 质量，引用层的设计决定了用户能否验证、愿不愿验证。三大平台的设计分野很能说明问题：Perplexity 句子级 inline 引用、平均约 21.87 条引用/响应（来源：Whitehat SEO 2025 实测）；ChatGPT 引用置于响应末尾、平均约 7.92 条；Gemini 段落级引用、与 Google 知识图谱融合。

但引用数量 ≠ 引用质量：Tow Center / Columbia Journalism Review 2025-03 研究测试 8 个 AI 搜索引擎、200 条新闻查询，超过 60% 的查询返回不正确引用；Perplexity 失败率最低也有 37%，Grok-3 Search 高达 94%（来源：Nieman Lab 报道）。更深的产品权衡在 UX 层：Seeing to Think?（arXiv:2601.14611, 2026）对比 Collapsible / Hover Card / Footer / Aligned Sidebar 四种界面，发现核心矛盾是**“流畅性 vs 强制反思验证”**——Hover Card 体验流畅但鼓励盲信，Sidebar 提升批判性思维却打断工作流。引用层的设计本质是在替用户决定”信任的摩擦力”该多大。

引用 UX 模式	验证摩擦	风险	典型
Inline 数字 + favicon	低	鼓励扫一眼就信	Perplexity
Footer 链接列表	中	声明↔证据对应模糊	ChatGPT Search
Hover 原文片段	中低	流畅但弱反思	Granola
Aligned Sidebar	高	打断流，但促核验	研究界面

§5 L5 时效更新层：知识如何不过期

时效层是 PM 最容易低估的一层——因为它在 demo 里永远正常，只在上线三个月后开始烂。核心反直觉发现来自 HoH 基准（Ouyang et al., arXiv:2503.04800, 2025）：即使知识库里同时存在新旧信息，过时事实仍会干扰模型识别正确答案、甚至诱导有害输出。 也就是说，“把新数据加进去”不等于”系统会用新数据”——时效约束必须同时注入检索排序和生成提示两处。

更隐蔽的是训练侧：Understanding Data Temporality Impact on LLM Pre-training（Fabre et al., arXiv:2605.22769, 2026）发现标准 shuffled 预训练会稀释时序信号，混排模型在 2024 年知识上准确率骤降至近随机——用户感知的”模型不知道近期事”，部分不是截止日期问题，而是数据混排导致的。时效层的产品决策框架是知识更新成本梯队：更新索引（小时级）< 持续微调（天-周级，且有灾难性遗忘风险）< 全量重训（周-月级）。前沿方法如 HALO（Half Life-Based Outdated Fact Filtering in Temporal Knowledge Graphs, arXiv:2505.07509, 2025）把物理半衰期引入时序知识图谱、按时间衰减淘汰过期事实——这提示 PKM/企业库可以给知识条目标注”预期有效期”而非只记创建时间。

[!note] failure scenario 本节”双轨架构（静态索引 + 动态实时拉取）是工业现实”的结论，在强实时领域（股价、航班、库存）会失效——这些场景下索引几乎全是负债，必须 L2 路由层直接走实时检索，L1 向量库反而成了过期数据源。时效层与路由层的边界因领域而异。

§6 L6 权限治理层：谁能看到什么

权限层是企业 KM 的第一否决项。最危险的认知是”权限是检索后过滤的事”——大多数 RAG 研究隐含假设”所有检索内容对任意用户可访问”，这在企业里直接等于向量层成为权限提升向量（privilege escalation vector）：低权限用户通过 query 触发对无权限文档的检索（来源：tianpan.co, 2026-05）。

过滤位置	安全性	代价	现状
应用层（生成后过滤）	低（文档已进模型视野）	易实现、浪费算力、有泄漏风险	生产主流
向量层（检索时过滤）	高（文档从不进模型）	需为每个 chunk 标注 ACL	学术推荐
IAM 直接集成	高（实时校验）	延迟成本高	前沿

Glean 的工程实践给出参照：查询时 ACL 过滤（query-time access control list filtering），训练时优先用高可访问性文档兼顾隐私与信号质量（来源：ZenML LLMOps Database, 2023）。权限层的产品决策是”安全性 vs 改造成本”——理论上向量层过滤更安全，但现有生产系统大多停在应用层，尚无大规模对比实验公开（这是 §7 confirmation-bias 砍除点）。

§7 判断主轴：三个层间致命耦合（90% 的人在这里翻车）

单层做好不够。知识产品的事故几乎都发生在层与层的接缝。以下三个致命耦合，每个带”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

耦合 A：L2 检索路由 × L5 时效更新脱节 → 自信地给过期答案

症状：用户问”X 公司现任 CEO 是谁”，系统从向量库召回了一篇 2023 年的旧文，自信作答，没意识到该用实时检索。
为什么会错：路由层只看”query 语义”决定去哪检索，不看”这个 query 是否对时效敏感”；时效层只管索引刷新，不向路由层暴露”这块知识的半衰期很短”信号。两层各自正常，接缝处没有”时效敏感度 → 路由策略”的传导。
正确做法：在路由层引入时效敏感度判定（实体类、价格类、人事类 → 强制走实时或要求 L5 的新鲜度元数据），让 L5 的半衰期标注成为 L2 的路由输入。
真实反例：HoH 基准（arXiv:2503.04800）证明，即便库里有正确新信息，模型仍会被过时事实干扰——这正是路由/排序没有把时效作为一等约束的后果。

耦合 B：L3 grounding × L4 引用层不一致 → 假溯源

症状：答案贴了 5 条权威引用，看起来无懈可击，但其中某句关键结论实际上没有任何一条引用支撑——引用是”装饰”而非”证据”。
为什么会错：grounding 弱（模型自由发挥）但引用层照样把检索到的 source 全列出来，用户误以为”有引用 = 被支撑”。引用层展示的是”检索到了什么”，不是”生成用了什么”。
正确做法：引用层必须绑定到 grounding 的句子级归属（attribution），即”这句话由这条证据支撑”，而非”这次回答检索过这些源”。做不到句子级归属时，宁可降低引用密度也不制造虚假对应。
真实反例：Liu et al.（EMNLP 2023）实测仅 51.5% 句子被引用支撑、74.5% 引用真正支撑声明——引用多≠溯源真，斯坦福 HAI 直接称其为”facade of trustworthiness”。学术界更出现了引用幻觉污染：Lancet 2026-05 研究审计 250 万篇 PubMed 论文，2026 年初每 277 篇含 1 篇幻觉引用，较 2023 年（1/2828）增长约 12 倍（来源：StatNews 2026-05-07）。

耦合 C：L6 权限治理缺失 × L1/L2 任意层 → 越权泄露

症状：销售实习生问”我们给某大客户的最低折扣是多少”，系统从财务文档召回并答出——而该文档本应只有 VP 以上可见。
为什么会错：权限被当成应用层”事后过滤”，但文档已进入模型上下文，模型可能在拒答前就把内容用进了推理，或在 fallback 措辞里泄露。权限层没有作为 L1/L2 的前置闸门。
正确做法：权限过滤前移到检索层（向量层 ACL 或 IAM 集成），让无权限文档从不进入模型视野；chunk 的权限粒度必须与 L1 的存储粒度对齐（一个 chunk 跨越两个权限域 = 漏洞）。
真实反例：tianpan.co（2026-05）明确把向量层描述为企业 RAG 的 privilege escalation vector；BadRAG/TrojanRAG 类投毒攻击进一步证明检索层是攻击面（来源：Mu et al., Towards Secure RAG: A Comprehensive Review of Threats, Defenses and Benchmarks, arXiv:2603.21654, 2026）。

[!warning] confirmation-bias 砍除本节点早期倾向把”向量层过滤”当成权限层的标准答案，并默认它已是业界共识。砍除：现实是生产系统大多仍用应用层过滤，向量层过滤改造成本高，且二者尚无大规模对比实验公开数据（tianpan.co 也承认这点）。把”向量层更安全”当成”应该立刻全面迁移”是 bias，正确表述是”安全性更高但需评估改造 ROI”。

§8 产品 PM 视角补盲：用户心理、商业模式、合规

工程视图会让 PM 只盯检索精度，但知识产品的成败常在三个非工程点：

用户心理模型——“引用即真相”的认知陷阱：zero-click 时代，“AI 的回答 = 用户对品牌的直接体验”。用户看到引用就降低警惕，引用层设计若一味追求流畅（Hover Card），反而放大了 §7 耦合 B 的伤害。这是用户教育与 UI 摩擦力的产品取舍。
商业模式张力——Perplexity 的”产品形态领先 + 单位经济亏损”：实时检索每次查询都要爬取 + LLM 总结，搜索与 LLM 双重成本，毛利承压。知识产品的层数越多（尤其 L2 实时 + L5 高频更新），单位经济越脆弱。PM 必须把”每层的边际成本”纳入架构决策，而非只看体验。
合规边界——知识更新 SLA 与删除义务：EU AI Act（2024-08-01 正式生效〔entry into force〕，2024-03-13 欧洲议会表决通过；义务分阶段：禁止条款 2025-02-02 / GPAI 2025-08-02 / 高风险 2026-08-02）要求风险分类与技术文档备案；GDPR 删除权直接否决了 L1 的纯参数形态。合规不是 L6 的附属，它是 L1 形态选择的前置约束。

§9 跨域呼应：Polanyi 默会知识与”可显式化”的边界

[!note] 跨域调度：Michael Polanyi《Personal Knowledge》(1958) 的默会知识（tacit knowledge）知识系统六层有一个共同的隐含假设：知识是可被显式化、切块、索引、检索的对象。Polanyi 的反命题是”我们知道的比我们能说出来的多”（we know more than we can tell）——大量企业核心知识是默会的、镶嵌在实践与人际关系里的，无法被 L1 索引为 chunk。这改变了一个关键产品判断：知识系统的 L1 覆盖率有一个原理性天花板，不是工程问题。 当 PM 被要求”把公司所有知识 AI 化”时，正确回应不是”再加几个连接器”，而是辨识哪些知识是可编码的（文档、工单、KG）、哪些是默会的（资深员工的判断、跨部门的政治）——后者只能靠人在回路（human-in-the-loop）而非更大的向量库。这一框架也解释了为何”9 小时/周搜索内部信息”（McKinsey 2012）这类数字难以靠纯检索系统消灭：被搜索的部分是显性知识，真正卡人的往往是默会的”该问谁”。

§10 PM 决策启示

面试怎么用：被问”你怎么设计企业知识助手”，不要从”用什么向量库”答起。先画六层责任图，指出三个致命耦合点，说”我会先确认 L6 权限模型和 L1 的删除合规义务，再谈检索精度”——这一句立刻把你和只会调 RAG 的候选人区分开。
选型怎么用：评估供应商（Glean / Copilot / 自建）时，按六层逐层问 SLA：L5 索引刷新频率、L6 是查询时还是应用层过滤、L4 是否句子级归属。别比 feature list，比”接缝处谁负责”。
复现怎么用：搭最小知识系统时，第一个集成测试不是”检索准不准”，而是三个耦合点的对抗用例：过期实体 query（测 A）、无证据声明是否仍带引用（测 B）、越权文档 query（测 C）。

§11 与已有节点的关系

对照 c09 - RAG 架构：c09 解构 RAG 作为非参数记忆管线的工程实现（分块、混合检索、reranker、HyDE）。本节点做的是升高抽象层——RAG 在本剖面里只是 L1+L2+L3 的一种实现选项，本节点补的是 c09 没有的 L2 路由决策层、L4 引用/grounding 分离、L6 权限层。不复述 c09 的 reranker 原理与混合检索机制。
对照 m205 - RAG 生产环境：索引运维与评估体系：m205 讲索引运维四指标（命中率/空结果率/引用频率/Embedding Drift）与 RAGAS 评估。本节点的 L5 时效层是 m205 增量索引/TTL 的产品化升级——把”运维指标”提升为”知识半衰期产品决策”，把 m205 的”空结果率→扩库队列”运营飞轮接到 L1 内容策略上。不复述 RAGAS 四指标定义。
对照 c13 - 幻觉的不可消除性：c13 论证幻觉是架构性特征、给出四级可靠性应对（外部护栏→可溯源→不确定性外显→人工审核）。本节点把这套应对落到分层剖面——c13 的”可溯源设计”对应 L4，“引用幻觉”正是 §7 耦合 B 的理论根。不复述 c13 的 Softmax/RLHF 校准论证。
与 Perplexity 的关系：Perplexity 是本剖面的产品级实证样本（L2 实时路由 + L4 inline 引用 + L5 强新鲜度偏置），其引用错位争议是耦合 B 的”被聚光样板”。

§12 关联节点

核心（必读）

延伸（可选）

§13 修订日志

2026-06-12 内审修复：§5 合规边界 EU AI Act 模糊表述”2024 生效”统一为权威值——2024-08-01 正式生效〔entry into force〕（2024-03-13 欧洲议会表决通过为括注），补分阶段义务时点（禁止条款 2025-02-02 / GPAI 2025-08-02 / 高风险 2026-08-02）。
R0（2026-06-07）：首稿。建立六层产品责任剖面（知识源/检索路由/grounding/引用溯源/时效更新/权限治理），三个致命耦合四件套（A 路由×时效、B grounding×引用、C 权限缺失），Polanyi 默会知识跨域呼应，c09/m205/c13 升级对照。已 WebFetch 验证 arXiv ID：A-RAG（2602.03442）、Seeing to Think? UX 研究（2601.14611）、Fabre 时序预训练（2605.22769）、HALO（2505.07509）、RAG 安全综述（2603.21654）均确证存在且主题吻合，已去除待核实标记。注：Wang et al. EMNLP 2024 Knowledge Mechanisms（2407.15017）、HoH（2503.04800）、Liu et al. EMNLP 2023（2304.09848）、Tow Center 2025-03 已在接地简报阶段验证。