A05 知识时效性与更新 · 知识库

知识产品最隐蔽的失败不是”答错”，而是”用昨天的正确答错今天”。本节点要解决的问题是：当一个知识系统把”过期但曾经正确”的信息当作”现在正确”端给用户时，谁该为这次误导负责，产品又该把这件事当成什么来管？ 本节的视角是：把知识时效性当成一项可被违约的 SLA（服务等级约定），而不是一个偶尔会犯的技术 bug——不显式定义新鲜度承诺，等于默认承诺”永远最新”，而这个承诺没有任何系统能兑现。

§0 为什么是”SLA 框架”而不是”准确率框架”

读到”时效性”，多数 PM 脑中默认的框架是准确率：模型答对了就好，答错了就修。这个框架在时效性问题上系统性失灵，原因是它丢掉了时间这一维度。

一条信息可以同时”在事实层面正确”和”在当下错误”——“上海地铁 1 号线票价 3 元”在 2015 年是对的，今天端给用户就是错的，但它从来不是”幻觉”，它是一条衰减了的真知识。准确率框架会把它判为”正确”（因为它确实是个真实存在过的事实），于是漏掉了真正的失败。这正是 c13 - 幻觉的不可消除性里列出的”时效幻觉”为何要单独成类：它的生成机制和事实幻觉不同——不是模型凭空捏造，而是模型忠实地复述了一个过期的真相，置信度还很高。

所以本节点用的是 SLA 框架：时效性不是”对/错”的二元，而是”新鲜度承诺 vs 实际新鲜度”的差值。SLA 框架强制 PM 回答三个准确率框架问不出的问题——(1) 这个知识品类的”可接受陈旧窗口”是多久（股价是秒级，公司创始人是年级）？(2) 当实际新鲜度突破窗口时，系统是降级、报警、还是装作没事？(3) 违约时谁担责。

[!note] 判断主轴知识产品的时效性是一项 SLA。不显式管理它，等于默认了一个无法兑现的”永远最新”承诺——用户会因此被过期知识误导，而产品甚至不知道自己违约了。这条贯穿全节点：从训练截止、到缓存 vs 实时、到衰减建模，每一层都是在为不同知识品类定义并守住各自的陈旧窗口。

§1 训练截止：参数记忆是一张”快照”，而非”实时画面”

LLM 的参数知识在训练完成那一刻被冻结。这不是缺陷可修，是参数记忆的定义性属性——知识压缩进权重，权重不变则知识不变。截至 2026 年初，主流模型里只有 GPT-5.x、Claude 4.x、Gemini 2.5+/3 三个家族的训练数据延伸到 2025 年之后，其余的训练截止都早于 2025 年 1 月（来源：Otterly.ai《LLM Knowledge Cutoff Dates》2026；Temso AI《AI Knowledge Cutoff Dates》2026，均为商业博客 ⚠️ 非同行评审）。

但 2026 年有一项研究把”训练截止”这个产品默认假设撕开了一道更深的口子。Fabre 等人（《Understanding Data Temporality Impact on LLM Pre-training》，arXiv:2605.22769，2026）发现：标准的”打乱（shuffled）预训练数据”策略本身会掩盖时序信号。混排训练出的模型，在 2015、2020 年的知识上表现最好，而在 2024 年知识上的准确率骤降至接近随机——即使训练数据明明覆盖了 2024 年。相比之下，按时间顺序排列预训练数据的模型呈现”近期峰值”（recency peak），对截止日期前的事实更准。他们同时发布了含 7,000+ 条时序标注问题的基准 KairosQA。

这对 PM 的冲击是：用户抱怨”模型不知道最近的事”，部分原因根本不是训练截止日期，而是训练数据混排导致的时序信号稀释。 也就是说，“知识截止线”不是一道清晰的悬崖，而是一段从截止日往回逐渐变模糊、又因混排而被进一步打乱的灰色地带。产品文案上写一行”知识截止于 2025 年 4 月”看似负责，实则给了用户一个过于乐观的心理模型。

§2 衰减不是”没有最新数据”，是”新旧并存时仍优先用旧的”

这是时效性问题里最反直觉、也最该被 PM 记住的一条。

直觉认为：只要把最新信息塞进知识库（RAG 语料），陈旧问题就解决了。HoH 基准（Ouyang 等人，arXiv:2503.04800，2025 年 3 月提交、7 月更新）直接证伪了这个直觉。 这是首个专门评估 RAG 系统中过时信息影响的动态基准，核心发现有两条，都很刺眼：

过时信息会干扰模型识别正确答案，从而拉低准确率——哪怕正确答案就在同一个知识库里；
过时事实能诱导模型生成有害输出，即使当前正确信息同时在场。

结论是：现有 RAG 系统在检索阶段和生成阶段都没能有效处理知识陈腐。这就是为什么 §0 说准确率框架会漏掉问题——“新信息已经在库里了”不等于”系统会用它”。Piryani 等人的时序 IR 综述（《It’s High Time》，arXiv:2505.20243v2，2025，University of Innsbruck / TU Delft）把这种失败命名为”时序幻觉（temporal hallucination）“，并指出文档”焦点时间（focus time）“估计——判断一篇文档说的是哪个时间点的事——是提升答案精度的关键未解问题。

失败层	表现	准确率框架能看见吗
检索层	新旧文档都被召回，旧的排在前	看不见（召回率没问题）
排序层	时序相关性未进排序信号	看不见（语义相似度很高）
生成层	模型优先复述更”自信”的旧表述	看不见（答案”是个事实”）

产品含义：时序约束必须在检索排序和生成提示两处都注入，单点防御无效。 只在 prompt 里加一句”请使用最新信息”，挡不住排序层把旧文档顶到上下文窗口前部（lost-in-the-middle 会让靠前的内容权重更高）。

§3 缓存 vs 实时：时效性的成本-延迟-合规三角

这是时效性问题在架构层的直接落地，也是 PM 选型会上真正要拍板的地方。两种极端策略各有致命短板（来源：Unified.to《Index-Time RAG vs Real-Time RAG》2025；RAGFlow《RAG Review 2025》2025，均经 WebFetch 核实）：

维度	缓存索引（Index-Time RAG）	实时检索（Real-Time RAG）
查询延迟	低且可预测（预计算）	高且可变（实时 API 调用）
数据新鲜度	取决于索引刷新频率；索引是时间快照	反映当前状态，无快照滞后
成本	前期高（摄入+嵌入），边际成本低	前期低，每次查询都付费
合规风险	数据被复制进向量库，需单独权限管控	继承源系统权限，合规表面积小
失效模式	索引滞后时”自信但错误”地回答	源系统宕机时直接无法响应

注意两种失效模式的产品后果完全不同：缓存的失效是”静默误导”（用户拿到一个看起来正确的过期答案，毫不知情），实时的失效是”显式中断”（用户拿不到答案，但至少知道出问题了）。从知识产品的信任设计角度，静默误导比显式中断危险得多——后者用户会重试或换渠道，前者用户会把错误信息带走并据此决策。

工业界的答案不是二选一，而是混合：RAGFlow 2025 年终回顾（WebFetch 核实）记录了两个关键事实——(a) 把全量内容塞进上下文的 KV Cache 方案，成本比 RAG 高至少一个数量级，“暴力塞全文”在经济上不成立；(b) 主流正演进为”静态内容索引 + 动态权限敏感数据实时拉取”的混合架构。落到产品决策上，这意味着 PM 要按知识品类切分 SLA：公司介绍、产品手册这类”写少读多”的稳定知识走缓存（陈旧窗口可以是周/月级），价格、库存、状态这类高频变动数据走实时（陈旧窗口必须是秒/分级）。

§4 前沿：把”半衰期”写进知识本身

如果时效性是 SLA，那最优雅的做法是让每条知识自带”保质期”。2025 年有两项工作朝这个方向走得很远：

STAR-RAG（Zhu 等人，arXiv:2510.16715，2025，WebFetch 核实）：基于”时间对齐规则图（time-aligned rule graph）“，在检索时强制引入时序近邻约束，避免”语义相关但时序错位”的答案——直接对应 §2 的排序层失败。代价更低：消耗的 token 比强 GraphRAG 基线还少。
HALO 半衰期过滤（Ding 等人，arXiv:2505.07509，2025，WebFetch 核实）：把物理学的半衰期理论引入时序知识图谱，用时间衰减函数系统性淘汰过期事实，含时序事实注意力、动态关系感知编码器、过时事实过滤器三个模块，在三个公开数据集上超越 SOTA。

[!note] 这对 PKM / 企业知识库的直接启示 HALO 提示我们：知识条目不该只记”创建时间”，而该记”预期有效期 / 半衰期”。Rick 的 Second Brain 里，一条”某 arXiv 论文是该领域 SOTA”的笔记半衰期可能只有 6 个月；一条”福柯《规训与惩罚》出版于 1975 年”的笔记半衰期接近无穷。把半衰期作为元数据，等于把 §3 的”陈旧窗口”从系统级下沉到了条目级——这是知识产品时效性设计能做的最细颗粒度。

不过这里有个 failure scenario 要显式标注：半衰期建模假设衰减是平滑、可预测的。但很多知识是断崖式失效——某条监管政策在某天突然作废，前一天还 100% 有效，后一天 0% 有效。平滑衰减函数对这种”事件驱动的瞬时失效”无能为力，需要外部事件信号触发强制失效，而非靠时间函数自然衰减。把半衰期当万灵药，会在合规、医疗、法律这些”断崖型知识”密集的领域翻车。

§5 更新成本梯队：为什么”重训”几乎从不是答案

PM 谈”让模型知道新东西”时，常默认要”更新模型”。实际的更新手段是一个成本相差几个数量级的梯队：

更新索引（小时级，$）  <  持续微调（天-周级，$$$）  <  全量重训（周-月级，$$$$$）

学界主流倾向已相当清晰：用 RAG/索引做知识更新，用微调做能力提升（非定论，但工程共识强）。原因是持续微调有两个躲不开的坑：

灾难性遗忘且与模型规模正相关：模型越大，持续微调时遗忘越严重（参数越多，旧知识被覆盖的范围越广）（来源：Zylos Research《Continual Learning and Catastrophic Forgetting》2026；arXiv:2308.08747）。
“顽固性 vs 可塑性”的两难：Clemente 等人（《In Praise of Stubbornness》，arXiv:2502.04390，2025，Eurecom/Telecom Paris，WebFetch 核实）借 Festinger 的认知失调理论，把新信息分成”新颖/熟悉/失调”三类，主张对”失调更新”（与已有知识直接矛盾的信息）保持抵抗——因为盲目接受失调信息会”灾难性地破坏与当前更新无关的知识”。

这两条加在一起的产品结论是：知识更新 SLA 应该是一个显式的系统设计约束——“价格变动后多久反映到答案里”必须有数字承诺，而兑现这个承诺的手段，几乎永远是更新索引（小时级），而非微调或重训（天到月级）。把”用户希望模型实时学习”当成需求去做持续微调，是用最贵的手段解决最该用便宜手段解决的问题。

§6 产品 PM 视角补盲：时效性是信任设计，不只是数据工程

跳出工程视角，时效性在三个非技术维度上会”看走眼”：

用户心理模型错配：用户对 AI 的默认假设是”它连着互联网、什么都知道最新的”。一个不显示时间戳的答案，会被用户自动赋予”此刻有效”的隐含承诺。显式的时间标注（“截至 2025 年 4 月""数据更新于 3 分钟前”）本身就是一项时效性 SLA 的 UI 兑现，呼应 c13 - 幻觉的不可消除性的”不确定性外显 UI”——告诉用户”这条信息的新鲜度边界在哪”，是把陈旧窗口翻译成用户能理解的信号。
合规边界的时效性维度：金融、医疗、法律领域，“用过期信息答复”不只是体验问题，可能是合规事故。一条作废的监管条款被当作现行规则引用，责任链条会直接指向产品方。这正是 §4 断崖型知识 failure scenario 的高代价版本。
商业模式张力：实时检索每次查询都付费（§3），这与”答案越多越好”的产品冲动直接矛盾。Perplexity 的”产品形态领先 + 单位经济亏损”张力（见 Perplexity），本质之一就是为时效性付的实时检索成本。时效性是有价格的，把所有知识都做成实时的产品，毛利会被时效性吃掉。

§7 对手框架回应：接受”长上下文派”对，但守住边界

业界反方立场（“长上下文淘汰时效性管理”派）：随着上下文窗口扩到 1M token，与其费力维护索引新鲜度，不如每次把最新的全量文档直接塞进上下文，让模型现读现答——这样根本不存在”快照滞后”，时效性自动解决。

接受它对的部分：这个立场在”单文档、低频、高价值”场景下确实成立。如果你要问的是”这份刚发布的 80 页 EU AI Act 全文里关于 GPAI 的条款”，把全文塞进上下文确实比建索引更省事、更新鲜。长上下文消除了快照滞后这一点，是真的。

但守住本节点的边界：(1) 成本——RAGFlow 实测全量塞入的 KV Cache 方案成本比 RAG 高至少一个数量级，时效性靠”每次重读全文”换取，经济上不可规模化；(2) 信息洪水——全文塞入会产生”information flooding”效应，配合 lost-in-the-middle，新鲜的关键信息可能淹没在上下文中部反而被忽略（这恰恰又是一种时效性失败）；(3) “现读现答”假设了你手里已经有最新全文——可如果你都不知道某条信息已经更新了，你根本不会去拉它的最新版本。长上下文解决的是”已知需要更新的单一来源”，解决不了”系统性地知道哪些知识该更新了”——而后者才是时效性 SLA 的核心难点。 我赌的是：在多源、高频、海量知识品类下，2-3 年内”索引 + 时序约束 + 实时混合”仍是唯一规模化方案，长上下文是补充而非替代。

confirmation-bias 砍除：本节点早期论证倾向于把”实时检索”当成时效性的正面解药反复引用。补一个反例——实时检索引入的是”源系统的当前状态”，但源系统本身可能就是错的或滞后的（一个忘了更新的内部 wiki 页面，实时拉取也只是实时拉取了一份过期内容）。实时 ≠ 正确，实时只保证”和源同步”，不保证”源是对的”。 时效性 SLA 的上限受制于源数据本身的维护质量，这是任何检索架构都救不了的。

§8 跨域呼应：Kuhn 的范式与”知识半衰期”的认识论根

[!note] 跨域调度：Kuhn 范式不可通约性 → 知识时效性的认识论根我们谈”知识衰减”时，隐含假设是知识在”同一套坐标系里慢慢变旧”。但 Kuhn 在《科学革命的结构》里指出：范式转移时，新旧知识是不可通约（incommensurable） 的——不是旧知识”过期了”，而是衡量它对错的整个标准被换掉了。这给时效性管理一个深层警告：最危险的陈旧不是”数字变了”（票价从 3 元变 4 元，半衰期函数能处理），而是”问题被重新定义了”（“什么算一次有效检索”在 Agentic RAG 范式下和 Naive RAG 范式下根本不是同一回事）。前者是 §4 的 HALO 能淘汰的”事实陈旧”，后者是任何时间衰减函数都捕捉不到的”框架陈旧”——一条笔记的事实没错，但它赖以成立的整个范式已经被换掉了。对 Rick 的 PKM，这意味着复盘时要分两层问：“这条信息的事实还成立吗？“和”这条信息背后的判断框架还成立吗？“——后者才是知识工作者真正要警惕的过期。

这也是 §0 为什么要先做框架辨析的认识论理由：选错框架（用准确率框架管时效性），就是一种”框架陈旧”，它会让你对所有”事实陈旧”的检测都失效。

§9 PM 决策启示

面试：被问”如何保证 AI 助手的信息是最新的”，不要答”接 RAG 就行”。答”先按知识品类定义陈旧窗口 SLA（股价秒级、政策事件驱动、公司介绍月级），再分别选缓存/实时/混合架构，并在排序和生成两处注入时序约束——因为 HoH 基准证明，光把新数据放进库里，模型仍会优先用旧的”。这一步就把你和”知道有 RAG 这个词”的候选人区分开了。
选型：评估知识产品供应商时，问三个 SLA 问题——(1) 不同知识品类的更新延迟分别是多久？(2) 索引滞后时系统是静默回答还是降级报警？(3) 答案是否带时间戳。供应商答不上来第 (2) 题，说明他们没把时效性当 SLA 管。
复现：在自己的 PKM/RAG 系统里，给每条知识加 半衰期 或 复核日期 元数据（HALO 思路的轻量版），并对”断崖型知识”（政策/价格/状态）单独标记需要事件触发失效，而非靠时间衰减。

§10 与已有节点的关系

对照 c09 - RAG 架构：c09 讲 RAG 作为”非参数化记忆管线”的工程解构（可实时更新是其优势之一）。本节点深化其中”可更新”这一点——把”能更新”拆成”该多快更新（SLA）、新旧并存时会不会用错（HoH）、怎么按品类切分更新策略”，不复述 RAG 管线本身。
对照 m205 - RAG 生产环境：索引运维与评估体系：m205 讲增量索引、版本管理、TTL 清理的运维操作。本节点补缺其上一层的产品决策——m205 告诉你”怎么做增量索引”，本节点告诉你”为哪些知识品类设多长的更新 SLA、以及为什么静默陈旧比宕机更危险”。运维细节（TTL、版本标记）直接双链 m205，不重述。
对照 c13 - 幻觉的不可消除性：c13 把”时效幻觉”列为五类幻觉之一。本节点深化纠偏——指出时效幻觉的生成机制（忠实复述过期真知识）与事实幻觉（凭空捏造）根本不同，因此防御手段也不同（时序约束 + 半衰期，而非事实核查）。
对照 Perplexity：Perplexity 的实时检索是时效性 SLA 的产品级实现样板，其单位经济亏损则是时效性”有价格”的实证。本节点引其为 §3/§6 的真实案例，不重述其商业模式全貌。

§11 关联节点

核心（必读）

c09 - RAG 架构 — 非参数化记忆与可更新性的工程基础
m205 - RAG 生产环境：索引运维与评估体系 — 增量索引/版本管理/TTL 的运维落地
c13 - 幻觉的不可消除性 — 时效幻觉的成因与本节点的防御分工
Perplexity — 实时检索 SLA 的产品级样板与成本张力
范式 — Kuhn 不可通约性：框架陈旧 vs 事实陈旧

延伸（可选）

m203 - RAG 生产环境：Embedding 与文档解析 — 文档”焦点时间”估计的上游
m204 - RAG 生产环境：Chunking 与范式演进 — chunk 粒度与时序约束的交互
RAG / Embedding — 原子概念
ChatGPT / Gemini — 训练截止日期对照
幻觉 — 时效幻觉所属的上位概念
Agent — Agentic 检索按需触发对时效性的影响
0117社会学 — 知识的社会性时效（规则失效是制度事件，非自然衰减）
AI PM 知识图谱·总索引 — 专题入口

§12 修订日志

R0（2026-06-07）：首稿。确立 SLA 框架替代准确率框架的判断主轴；接地 HoH(2503.04800)、KairosQA/Fabre(2605.22769)、STAR-RAG(2510.16715)、HALO(2505.07509)、In Praise of Stubbornness(2502.04390)、It’s High Time(2505.20243) 六篇核实论文；调度 Kuhn 范式不可通约性破”事实陈旧 vs 框架陈旧”；标注断崖型知识与”实时≠正确”两处 failure/bias。商业博客来源（Otterly/Temso/Zylos）已标 ⚠️ 非同行评审。