G02 信息检索代际演化详解

如果 G01 给出了信息检索”从导航到回答”的一句话史观，那么本节点要解决的问题是：这部历史里每一代的”代表技术＋推动力＋瓶颈＋被谁超越＋2026 年还活着的部分”到底是什么——以及为什么这不是一部”一代更比一代强”的线性进步史。视角框架：把信息检索当作一条「相关性定义」不断被重写的谱系——每一代的革命，本质都是对”什么叫相关（relevance）“这个产品问题的重新作答，而不是简单的精度叠加。作为知识产品的设计者，PM 真正要拿走的，是每一代”为什么死/为什么没死”背后的产品-成本-信任三角约束。

§0 为什么用「相关性定义的重写」这个框架，而不是「精度单调上升」

读检索史最常见的默认框架是技术进步论：布尔检索→向量空间→PageRank→神经检索→RAG→Agentic，精度一路上扬，旧的被新的彻底取代。这个框架有两个致命错误。

第一，它把”被超越”误读成”被淘汰”。事实上 2026 年生产环境里，1970 年代的 BM25 词法检索仍是混合检索不可或缺的一路——企业特有实体查询（产品代码、团队名、专有名词）里 BM25 词法排序常优于 embedding（来源：tianpan.co 企业 RAG 权限文章，2026-05）；混合检索（BM25＋向量）比纯向量 Precision@5 平均高 12–19%（来源：largitdata.com，2025）。一项 50 年前的技术不仅没死，还是新技术的地基。

第二，它把”相关性”当成一个固定的、可被越来越精确逼近的真值。但每一代检索革命真正改变的，是**“相关”这个词的定义本身**：词法时代”相关＝词项重合”；PageRank 时代”相关＝词项重合×权威度”；神经时代”相关＝语义邻近”；RAG 时代”相关＝能支撑一段生成的证据”；Agentic 时代”相关＝当前推理步骤所缺的那一块信息”。维特根斯坦说意义即用法（meaning is use）——“相关”从来没有脱离使用场景的本质，每一代是换了一种”用法”，而不是更接近一个柏拉图式的相关性理念。用”精度单调上升”读史，会让 PM 在选型会上犯一个具体错误：以为上新一代就该退役旧一代，于是砍掉 BM25 只留向量，结果专有名词查询直接崩盘。

所以本节点按”代际”叙述，但每一代都强制四问：代表技术/产品是什么、什么推动力让它成立、它的结构性瓶颈在哪、它被下一代超越的是哪一个维度（而非全部）、以及它在 2026 年的真实位置。

§1 第一代：布尔与词法检索（1960s–1990s）——相关＝词项精确匹配

代表技术/产品：布尔检索（AND/OR/NOT）、向量空间模型（Salton 的 SMART 系统，1970s）、TF-IDF 加权，以及集大成的概率检索模型 BM25（Robertson & Spärck Jones 谱系，1994 年 TREC-3 确立形态，故又称 Okapi BM25）。早期商用代表是 Dialog、LexisNexis 这类专业数据库。

推动力：计算与存储昂贵，文本必须被压缩成稀疏的词项-文档倒排索引（inverted index）才可检索。倒排索引这一数据结构是这一代的真正引擎——它让”在百万文档里找含某词的文档”从线性扫描变成哈希查表。

瓶颈：词汇鸿沟（vocabulary mismatch）。“汽车”和”轿车”是两个 token，词法检索看不见它们的语义同一性；同义、多义、拼写变体全部失效。本质上，第一代把”相关”等同于”字符串重合”，这是它的力量（可解释、零训练、可审计）也是它的天花板。

被下一代超越的维度：仅仅是”跨越词汇鸿沟”这一个维度。注意，不是被全面超越——BM25 的精确匹配、可解释、零成本冷启动这三项至今无人能替代。

2026 年位置：活得很好，且是新架构的承重墙。Elasticsearch/OpenSearch 的底层仍是 BM25；几乎所有生产级 RAG 都用 BM25＋向量的混合检索＋RRF（Reciprocal Rank Fusion）融合（详见 c09 - RAG 架构对混合检索的工程拆解，本节点不复述其实现）。这是反”线性进步史”的第一个铁证：最老的一代是最新一代的必要组件。

[!warning] confirmation-bias 砍除 #1 转型 PM（包括早期的我）容易把”向量检索”当成检索的默认起点，把 BM25 当成”该淘汰的老古董”。这是被 embedding 营销话术塑造的偏见。反例：金融/法务/工单系统里大量查询是精确实体匹配，纯向量会把”BMW X5”和”BMW X3”判为高度相似而召回错车型，BM25 反而精准。

§2 第二代：链接分析与 Web 规模检索（1996–2010s）——相关＝匹配×权威

代表技术/产品：PageRank（Brin & Page，斯坦福，1998 年论文 The Anatomy of a Large-Scale Hypertextual Web Search Engine）与 Google；同期 HITS（Kleinberg）。

推动力：Web 爆炸。文档从”被编目的专业资料”变成”任何人可发布的无限网页”，词法相关性彻底失效——成千上万页面都”包含查询词”，问题从”找到含词文档”变成”在海量含词文档里排序出可信的那几个”。PageRank 的洞见是把超链接当作”投票”：一个页面被越多高权威页面链接，它越权威。相关性第一次被加上了权威度（authority）这个正交维度。

瓶颈：(1) 仍建立在词法匹配之上，PageRank 只解决排序、不解决理解，词汇鸿沟依旧；(2) 可被博弈——SEO、链接农场（link farm）把”投票”变成可买卖的商品，引发 Google 与黑帽 SEO 长达二十年的军备竞赛；(3) 它优化的是”导航到最佳页面”，而不是”直接回答问题”——用户拿到的是十条蓝链，验证成本仍在用户侧。

被下一代超越的维度：语义理解（被神经检索超越）与”回答而非导航”（被 RAG/答案引擎超越）。但权威度信号本身没有被淘汰——它被吸收进了后续每一代：Google AI Overviews 的引用里 54% 与传统 top-20 有机排名重叠（来源：DiscoveredLabs / Whitehat SEO，2025–2026），说明权威度排序在 LLM 时代被继承而非抛弃。

2026 年位置：作为”权威度信号层”存活于 Gemini/Google AI Overviews 的知识图谱融合检索中（见 Gemini）。同时，SEO 军备竞赛演化成了 GEO（Generative Engine Optimization）——出版商如今要博弈的是”如何被 LLM 引用”，相关性博弈的战场换了，逻辑没换。

§3 第三代：神经检索与稠密向量（2018–2022）——相关＝语义邻近

代表技术/产品：BERT（Devlin et al., 2018）开启的预训练语义表示；DPR（Dense Passage Retrieval, Karpukhin et al., 2020）、Sentence-BERT；以及 ANN（近似最近邻）向量索引引擎 FAISS、HNSW 图索引。产品上，这一代是”沉默的革命”——它没有出圈的消费产品名，却重写了搜索后端。

推动力：Transformer 让”把一句话压成一个稠密向量、用余弦相似度度量语义距离”在工程上可行。词汇鸿沟被一举跨越：“汽车”和”轿车”的向量天然邻近。Embedding 把”相关”从字符串重合重定义为向量空间里的几何邻近（embedding 的定位见 Embedding）。

瓶颈：(1) 黑箱不可解释——为什么这两段被判为相似，无法逐词归因，对受监管行业是合规硬伤；(2) 精确匹配能力反而退化——专有名词、数字、代码这类”需要字符级精确”的查询，向量会”理解过度”而召回近似但错误的结果；(3) “迷失于语义、丢失于结构”——向量只懂相似，不懂”A 是 B 的子公司”这类关系结构（这正是知识图谱要补的，见 §5 旁支）；(4) 仍是”检索”，不”生成答案”。

被下一代超越的维度：从”返回相关段落”到”生成接地答案”（被 RAG 超越）。但稠密向量本身是 RAG 的核心检索器，没有被淘汰——它是第四代的发动机。

2026 年位置：作为 RAG 的检索引擎无处不在，但单独使用已是反模式。生产共识是混合检索：用 BM25 补向量的精确匹配短板，用向量补 BM25 的语义短板。这又是一处反线性进步史——第三代没有取代第一代，而是和第一代结成同盟。

[!note] 跨域呼应：Kuhn 的”不可通约”与一处反例从词法到神经，是 Kuhn 意义上的范式转移（范式）——“相关”的定义被替换，新旧两代不在同一坐标系下比精度（一个比词项重合、一个比向量距离）。但 Kuhn 的”不可通约”在这里有一个被实践打脸的边界：词法与神经并非互斥范式，RRF 融合证明两种”相关性定义”可以加权共存。这提示我们：检索史的”范式转移”更像 Lakatos 的”研究纲领”叠加，而非 Kuhn 的彻底替换。把这条写进 PM 选型直觉：新范式来时，先问”它能不能和旧范式融合”，而不是默认二选一。

§4 第四代：RAG 与答案引擎（2020–2024）——相关＝可支撑生成的证据

代表技术/产品：RAG（Lewis et al., 2020, Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks）作为范式；Perplexity（Perplexity）、ChatGPT Search（ChatGPT，OpenAI 2024-11 发布）作为出圈消费产品。RAG 自身已演化出三代架构——Naive / Advanced / Modular（来源：Gao et al., Retrieval-Augmented Generation for LLMs: A Survey, arXiv:2312.10997, 2024），其工程剖面见 m203 - RAG 生产环境：Embedding 与文档解析、m204 - RAG 生产环境：Chunking 与范式演进、m205 - RAG 生产环境：索引运维与评估体系，本节点不复述。

推动力：LLM 让”读懂检索结果并合成一段话”成为可能。检索的产品形态第一次从”返回十条链接让用户自己读”跃迁到”直接给一段带引用的答案”——这是 G01 所说”从导航到回答”的范式落地。相关性被重定义为**“能接地（grounding）一段生成的证据”**：一个段落是否相关，不再看它和查询多像，而看它能否被 LLM 用来支撑一句可信的断言。

瓶颈（已确证，强反例）：(1) 幻觉未被消除——RAG 把幻觉率降低但降不到零，法律问答场景仍有 10–60% 幻觉/缺漏（来源：MDPI Hallucination Mitigation for RAG: A Review, 2025；arXiv:2510.09106 When Retrieval Succeeds and Fails）。这与 c13 - 幻觉的不可消除性的核心论断一致：幻觉是架构性特征，检索是外部护栏而非根治。(2) 引用本身会幻觉——基础研究显示仅 51.5% 的生成句子被引用完全支撑（Liu et al., EMNLP 2023, arXiv:2304.09848），斯坦福 HAI 称之为”虚假可信的表象”。(3) 检索噪声可覆盖模型本已正确的推理——“模型已知答案时，检索反而帮倒忙”（arXiv:2510.09106）。(4) Lost-in-the-Middle：长上下文中间位置的信息被系统性忽视。(5) 时效性陷阱——即使语料里新旧信息并存，模型仍可能优先引旧信息（来源：HoH 基准, Ouyang et al., arXiv:2503.04800, 2025）。

被下一代超越的维度：单次检索（single-shot）的刚性——被 Agentic 检索的”动态决定何时检索什么”超越。

2026 年位置：从”一种模式”演化为”上下文引擎（Context Engine）“——RAG 不再只是知识库工具，而是统一管理领域知识、工具描述、对话历史三类上下文的动态装配基础设施（来源：RAGFlow From RAG to Context: 2025 Year-End Review，WebFetch 核实）。RAG 没有死，但它的边界从”检索”扩张到了”上下文工程”，与信息流工程视角（见 0417 上下文工程）开始合流。

[!warning] 对手框架回应 #1：「长上下文窗口（1M token）将淘汰 RAG」 接受的部分：百万级上下文确实让”小语料直接全塞进 prompt”在某些场景比搭建 RAG 管线更省事，对原型和小知识库是真实选项。坚持的边界：(1) 成本——注意力是 O(N²)，全文塞入的 KV Cache 全量缓存方案成本比 RAG 高至少一个数量级（来源：RAGFlow 2025 年终回顾，WebFetch 核实）；(2) “信息洪水（information flooding）“效应——全文灌入反而稀释信号、加剧 Lost-in-the-Middle，已被实验记录；(3) 时效——上下文窗口再大也装不下”今天的股价”。赌注：我赌 2–3 年内 RAG/混合检索仍是企业知识产品主力，长上下文是补充而非替代。这条结论的 failure scenario：若推理成本下降两个数量级且 Lost-in-the-Middle 被架构性解决，则小到中型知识库可能真的不再需要检索层。

§5 第五代：Agentic 检索与深度研究（2023–2026）——相关＝当前推理步骤所缺的信息

代表技术/产品：Self-RAG（Asai et al., 2023/2024，用 IsREL/IsSUP/IsUSE 反思 token 按需触发检索）、FLARE（Jiang et al., 2023，生成置信度下降时主动检索）、A-RAG（Du et al., arXiv:2602.03442, 2026，暴露关键词/语义/chunk 三工具供代理分层选择）；产品上是 OpenAI Deep Research（基于 o3，2025-02-15）与 Perplexity Deep Research（2025-02-24）。

推动力：单次检索拼接和刚性预定义工作流这两条死路，逼出”让模型主动参与检索决策”的转向。相关性被重定义为**“当前这一步推理所缺的那块信息”**——检索不再是查询时一次性的事，而是嵌入推理流、随推理状态动态变化的决策（这与 Agent 的工具调用范式同源）。

瓶颈：(1) 工程复杂、调试困难——检索决策嵌入推理流后，失败归因极难；(2) Self-RAG 的反思 token 训练成本高，小模型上效果不稳定（活跃研究领域，无定论）；(3) 引用幻觉不降反升——Deep Research Agent 生成的引用更多，但 URL 幻觉率高于普通搜索增强 LLM（Gemini Deep Research URL 幻觉率 13.3%，OpenAI 3.5%，Claude 3.0–3.2%；来源：arXiv:2604.03173, 2026〔预印本，待评审〕）；(4) 慢且贵——OpenAI Deep Research 单次 7–20 分钟、月配额受限。

被超越的维度：尚无下一代，这是 2026 年的前沿。

2026 年位置：前沿但未收敛。一个被广泛误读的命题是「Agents 替代 RAG」——这被 RAGFlow 评为”市场营销话术（market-driven stunt）“，现实是 Agents 依赖 RAG 做领域知识、对话历史、工具元数据三类检索，是补充非替代（来源：RAGFlow RAG at the Crossroads，WebFetch 核实，学界反方占优）。

知识图谱旁支（横切第二至五代）：知识图谱检索（GraphRAG，Edge et al., arXiv:2404.16130, Microsoft, 2024，用 Leiden 算法层次聚类生成社区摘要）不是单独一”代”，而是贯穿各代的另一条相关性定义——“相关＝实体关系图上的可达”。它在多跳推理（“A 经 B 到 C 的关系”）和需可溯源的受监管场景里不可替代：综合性提升 72–83%、根级摘要 token 减少最高 97%（同上来源）；LinkedIn KG-RAG 客服部署后问题中位解决时间降 28.6%（Xu et al., arXiv:2404.17723, SIGIR 2024）。但它有明确边界——构建成本高、对频繁变化的数据维护困难，适合”写少读多”的稳定知识库。

§6 判断主轴：读检索代际史时 90% 的人会搞错的四个点

错点一：把”被超越”读成”被淘汰”。

症状：选型会上说”上了向量检索，BM25 可以下了”。
为什么会错：被线性进步史框架误导，以为每代是全维替换。
正确做法：每代只在”某一个相关性维度”上被超越，其余维度（成本、可解释、精确匹配）常常没人能替代。默认混合，而非替换。
真实反例：去掉 BM25 只留向量，专有名词/产品代码查询 Precision@5 掉 12–19%（largitdata.com, 2025）。

错点二：把”相关性”当成固定真值去逼近。

症状：用同一套评测指标横跨多代比”谁更准”。
为什么会错：每代重写了”相关”的定义，跨代比精度是跨范式比较，不可通约。
正确做法：先问”这一代把相关定义成了什么”，再选与场景匹配的那一代——实时新闻选答案引擎、多跳关系选 KG、精确实体选 BM25。
真实反例：用”语义相似”指标评 KG 检索，会判它”不够相似”，但 KG 的价值恰恰在关系而非相似。

错点三：以为新一代解决了上一代的幻觉/可信问题。

症状：“上了 RAG/Deep Research 就不会幻觉了”。
为什么会错：检索是外部护栏，治标不治本（c13 - 幻觉的不可消除性）。
正确做法：检索越深，引用越多，越要做引用核验。
真实反例：Deep Research Agent 引用更多但 URL 幻觉率反升（13.3% vs 普通搜索的个位数，arXiv:2604.03173, 2026）。

错点四：被”X 淘汰 Y”的代际叙事牵着走做选型。

症状：听信”长上下文淘汰 RAG""Agent 淘汰 RAG”就砍掉现有检索层。
为什么会错：这类叙事多为营销话术，学界反方占优。
正确做法：把”淘汰论”当待证伪假设，用成本/时效/复杂度三把尺子自测。
真实反例：KV Cache 全量缓存比 RAG 贵至少一个数量级（RAGFlow, 2025）。

§7 产品 PM 视角补盲

用户心理模型：每代检索都在重塑用户的”验证习惯”。蓝链时代用户默认”答案在别处、我得自己点开核实”；答案引擎时代用户默认”AI 的回答就是答案”——验证链断裂。zero-click 增长下，“AI 的回答＝用户对你品牌的直接体验”（来源：aiopsschool.com, 2026）。做知识产品时，引用 UI 不只是透明度，是在重建已被答案引擎瓦解的”用户自我验证”习惯。
商业模式张力：答案引擎的单位经济是负的——Perplexity 同时背着搜索成本和 LLM 成本（见 Perplexity 节点的单位经济分析）。代际越往后，每次查询越贵（Deep Research 一次 7–20 分钟算力），这决定了后几代检索短期内只能做高客单价/低频场景，不能无脑铺到所有查询。
合规边界：受监管行业（金融/医疗/法务）对”相关”的定义里天然含”可审计”——这恰恰是第一代 BM25 和知识图谱的强项、第三代向量黑箱的弱项。所以监管越重的场景，越要往谱系的”可解释端”回退，而非追最新一代。

§8 PM 决策启示

面试：被问”你怎么看检索技术演进”时，不要背技术名词链，而是答”每一代重写了相关性的定义”＋一个反线性进步史的具体反例（BM25 至今是混合检索地基）。这一句话能立刻把你和”读过几篇博客的候选人”区分开。
选型：拿”相关性定义”做第一性筛选——你的核心查询是”找相似”（向量）、“找关系”（KG）、“要最新”（答案引擎/Web Search）、还是”要精确实体”（BM25）？多数真实场景是混合，所以默认混合检索，而非押注单一代。
复现：搭最小可用检索时，从 BM25＋向量混合＋RRF 起步（最便宜、最稳、可解释），确有多跳需求再加 KG，确有动态决策需求再上 Agentic——按谱系从老到新增量加层，而非一上来就堆最新架构。

§9 与已有节点的关系

本节点是 02 代际演化模块的”详解”，衔接 G01（G01 给史观与”从导航到回答”的主线，G02 逐代填实代表技术/推动力/瓶颈/2026 位置）。

对照旧节点：

对 c09 - RAG 架构：c09 解剖 RAG 的工程实现（混合检索、Reranker、HyDE），本节点不复述实现，只把 RAG 放回检索谱系定位为”第四代”，做的是”历史定位补缺”。
对 m203 - RAG 生产环境：Embedding 与文档解析 / m204 - RAG 生产环境：Chunking 与范式演进 / m205 - RAG 生产环境：索引运维与评估体系：这三者是生产工程视角，本节点是”代际史视角”，做的是抽象层升高（把工程细节归位到演化谱系里），不重述其运维/评估细节。
对 c13 - 幻觉的不可消除性：c13 论证幻觉的架构必然性，本节点调用并对话——用 c13 的结论解释”为什么每一代检索都降幻觉但都降不到零”，是”深化＋对话”。
对 0417（上下文工程/信息流）：本节点把第四代 RAG 的 2026 位置标为”演化成上下文引擎”，与 0417 的信息流视角合流，是跨专题对话（本节点谈”检索作为知识产品的代际”，0417 谈”信息流工程”，互补不复述）。

§10 关联节点

核心（必读）

延伸（可选）

修订日志

R0（2026-06-07）：首稿。按”相关性定义重写”框架重写检索五代谱系＋知识图谱横切旁支，逐代四问（代表技术/推动力/瓶颈/被超越维度/2026 位置），强反线性进步史（每代附”没死的部分”＋两处 confirmation-bias 砍除），接入两处对手框架回应（长上下文淘汰论、Agent 替代论），跨域呼应 Kuhn/Lakatos/维特根斯坦，事实接地至 arXiv/产品来源；A-RAG（2602.03442）与 URL 幻觉论文（2604.03173）arXiv ID 经 WebFetch 验证存在。