R

G02 信息检索代际演化详解

创建 2026-06-07 更新 2026-06-11 0 条双链 信息检索与知识系统 专题 AI 整理

G02 信息检索代际演化详解

如果 G01 给出了信息检索”从导航到回答”的一句话史观,那么本节点要解决的问题是:这部历史里每一代的”代表技术+推动力+瓶颈+被谁超越+2026 年还活着的部分”到底是什么——以及为什么这不是一部”一代更比一代强”的线性进步史。视角框架:把信息检索当作一条「相关性定义」不断被重写的谱系——每一代的革命,本质都是对”什么叫相关(relevance)“这个产品问题的重新作答,而不是简单的精度叠加。作为知识产品的设计者,PM 真正要拿走的,是每一代”为什么死/为什么没死”背后的产品-成本-信任三角约束。

§0 为什么用「相关性定义的重写」这个框架,而不是「精度单调上升」

读检索史最常见的默认框架是技术进步论:布尔检索→向量空间→PageRank→神经检索→RAG→Agentic,精度一路上扬,旧的被新的彻底取代。这个框架有两个致命错误。

第一,它把”被超越”误读成”被淘汰”。事实上 2026 年生产环境里,1970 年代的 BM25 词法检索仍是混合检索不可或缺的一路——企业特有实体查询(产品代码、团队名、专有名词)里 BM25 词法排序常优于 embedding(来源:tianpan.co 企业 RAG 权限文章,2026-05);混合检索(BM25+向量)比纯向量 Precision@5 平均高 12–19%(来源:largitdata.com,2025)。一项 50 年前的技术不仅没死,还是新技术的地基。

第二,它把”相关性”当成一个固定的、可被越来越精确逼近的真值。但每一代检索革命真正改变的,是**“相关”这个词的定义本身**:词法时代”相关=词项重合”;PageRank 时代”相关=词项重合×权威度”;神经时代”相关=语义邻近”;RAG 时代”相关=能支撑一段生成的证据”;Agentic 时代”相关=当前推理步骤所缺的那一块信息”。维特根斯坦说意义即用法(meaning is use)——“相关”从来没有脱离使用场景的本质,每一代是换了一种”用法”,而不是更接近一个柏拉图式的相关性理念。用”精度单调上升”读史,会让 PM 在选型会上犯一个具体错误:以为上新一代就该退役旧一代,于是砍掉 BM25 只留向量,结果专有名词查询直接崩盘。

所以本节点按”代际”叙述,但每一代都强制四问:代表技术/产品是什么、什么推动力让它成立、它的结构性瓶颈在哪、它被下一代超越的是哪一个维度(而非全部)、以及它在 2026 年的真实位置。

§1 第一代:布尔与词法检索(1960s–1990s)——相关=词项精确匹配

代表技术/产品:布尔检索(AND/OR/NOT)、向量空间模型(Salton 的 SMART 系统,1970s)、TF-IDF 加权,以及集大成的概率检索模型 BM25(Robertson & Spärck Jones 谱系,1994 年 TREC-3 确立形态,故又称 Okapi BM25)。早期商用代表是 Dialog、LexisNexis 这类专业数据库。

推动力:计算与存储昂贵,文本必须被压缩成稀疏的词项-文档倒排索引(inverted index)才可检索。倒排索引这一数据结构是这一代的真正引擎——它让”在百万文档里找含某词的文档”从线性扫描变成哈希查表。

瓶颈:词汇鸿沟(vocabulary mismatch)。“汽车”和”轿车”是两个 token,词法检索看不见它们的语义同一性;同义、多义、拼写变体全部失效。本质上,第一代把”相关”等同于”字符串重合”,这是它的力量(可解释、零训练、可审计)也是它的天花板。

被下一代超越的维度:仅仅是”跨越词汇鸿沟”这一个维度。注意,不是被全面超越——BM25 的精确匹配、可解释、零成本冷启动这三项至今无人能替代。

2026 年位置:活得很好,且是新架构的承重墙。Elasticsearch/OpenSearch 的底层仍是 BM25;几乎所有生产级 RAG 都用 BM25+向量的混合检索+RRF(Reciprocal Rank Fusion)融合(详见 c09 - RAG 架构 对混合检索的工程拆解,本节点不复述其实现)。这是反”线性进步史”的第一个铁证:最老的一代是最新一代的必要组件。

[!warning] confirmation-bias 砍除 #1 转型 PM(包括早期的我)容易把”向量检索”当成检索的默认起点,把 BM25 当成”该淘汰的老古董”。这是被 embedding 营销话术塑造的偏见。反例:金融/法务/工单系统里大量查询是精确实体匹配,纯向量会把”BMW X5”和”BMW X3”判为高度相似而召回错车型,BM25 反而精准。

§2 第二代:链接分析与 Web 规模检索(1996–2010s)——相关=匹配×权威

代表技术/产品:PageRank(Brin & Page,斯坦福,1998 年论文 The Anatomy of a Large-Scale Hypertextual Web Search Engine)与 Google;同期 HITS(Kleinberg)。

推动力:Web 爆炸。文档从”被编目的专业资料”变成”任何人可发布的无限网页”,词法相关性彻底失效——成千上万页面都”包含查询词”,问题从”找到含词文档”变成”在海量含词文档里排序出可信的那几个”。PageRank 的洞见是把超链接当作”投票”:一个页面被越多高权威页面链接,它越权威。相关性第一次被加上了权威度(authority)这个正交维度

瓶颈:(1) 仍建立在词法匹配之上,PageRank 只解决排序、不解决理解,词汇鸿沟依旧;(2) 可被博弈——SEO、链接农场(link farm)把”投票”变成可买卖的商品,引发 Google 与黑帽 SEO 长达二十年的军备竞赛;(3) 它优化的是”导航到最佳页面”,而不是”直接回答问题”——用户拿到的是十条蓝链,验证成本仍在用户侧。

被下一代超越的维度:语义理解(被神经检索超越)与”回答而非导航”(被 RAG/答案引擎超越)。但权威度信号本身没有被淘汰——它被吸收进了后续每一代:Google AI Overviews 的引用里 54% 与传统 top-20 有机排名重叠(来源:DiscoveredLabs / Whitehat SEO,2025–2026),说明权威度排序在 LLM 时代被继承而非抛弃。

2026 年位置:作为”权威度信号层”存活于 Gemini/Google AI Overviews 的知识图谱融合检索中(见 Gemini)。同时,SEO 军备竞赛演化成了 GEO(Generative Engine Optimization)——出版商如今要博弈的是”如何被 LLM 引用”,相关性博弈的战场换了,逻辑没换。

§3 第三代:神经检索与稠密向量(2018–2022)——相关=语义邻近

代表技术/产品:BERT(Devlin et al., 2018)开启的预训练语义表示;DPR(Dense Passage Retrieval, Karpukhin et al., 2020)、Sentence-BERT;以及 ANN(近似最近邻)向量索引引擎 FAISS、HNSW 图索引。产品上,这一代是”沉默的革命”——它没有出圈的消费产品名,却重写了搜索后端。

推动力:Transformer 让”把一句话压成一个稠密向量、用余弦相似度度量语义距离”在工程上可行。词汇鸿沟被一举跨越:“汽车”和”轿车”的向量天然邻近。Embedding 把”相关”从字符串重合重定义为向量空间里的几何邻近(embedding 的定位见 Embedding)。

瓶颈:(1) 黑箱不可解释——为什么这两段被判为相似,无法逐词归因,对受监管行业是合规硬伤;(2) 精确匹配能力反而退化——专有名词、数字、代码这类”需要字符级精确”的查询,向量会”理解过度”而召回近似但错误的结果;(3) “迷失于语义、丢失于结构”——向量只懂相似,不懂”A 是 B 的子公司”这类关系结构(这正是知识图谱要补的,见 §5 旁支);(4) 仍是”检索”,不”生成答案”。

被下一代超越的维度:从”返回相关段落”到”生成接地答案”(被 RAG 超越)。但稠密向量本身是 RAG 的核心检索器,没有被淘汰——它是第四代的发动机。

2026 年位置:作为 RAG 的检索引擎无处不在,但单独使用已是反模式。生产共识是混合检索:用 BM25 补向量的精确匹配短板,用向量补 BM25 的语义短板。这又是一处反线性进步史——第三代没有取代第一代,而是和第一代结成同盟。

[!note] 跨域呼应:Kuhn 的”不可通约”与一处反例 从词法到神经,是 Kuhn 意义上的范式转移(范式)——“相关”的定义被替换,新旧两代不在同一坐标系下比精度(一个比词项重合、一个比向量距离)。但 Kuhn 的”不可通约”在这里有一个被实践打脸的边界:词法与神经并非互斥范式,RRF 融合证明两种”相关性定义”可以加权共存。这提示我们:检索史的”范式转移”更像 Lakatos 的”研究纲领”叠加,而非 Kuhn 的彻底替换。把这条写进 PM 选型直觉:新范式来时,先问”它能不能和旧范式融合”,而不是默认二选一。

§4 第四代:RAG 与答案引擎(2020–2024)——相关=可支撑生成的证据

代表技术/产品:RAG(Lewis et al., 2020, Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks)作为范式;Perplexity(Perplexity)、ChatGPT Search(ChatGPT,OpenAI 2024-11 发布)作为出圈消费产品。RAG 自身已演化出三代架构——Naive / Advanced / Modular(来源:Gao et al., Retrieval-Augmented Generation for LLMs: A Survey, arXiv:2312.10997, 2024),其工程剖面见 m203 - RAG 生产环境:Embedding 与文档解析m204 - RAG 生产环境:Chunking 与范式演进m205 - RAG 生产环境:索引运维与评估体系,本节点不复述。

推动力:LLM 让”读懂检索结果并合成一段话”成为可能。检索的产品形态第一次从”返回十条链接让用户自己读”跃迁到”直接给一段带引用的答案”——这是 G01 所说”从导航到回答”的范式落地。相关性被重定义为**“能接地(grounding)一段生成的证据”**:一个段落是否相关,不再看它和查询多像,而看它能否被 LLM 用来支撑一句可信的断言。

瓶颈(已确证,强反例):(1) 幻觉未被消除——RAG 把幻觉率降低但降不到零,法律问答场景仍有 10–60% 幻觉/缺漏(来源:MDPI Hallucination Mitigation for RAG: A Review, 2025;arXiv:2510.09106 When Retrieval Succeeds and Fails)。这与 c13 - 幻觉的不可消除性 的核心论断一致:幻觉是架构性特征,检索是外部护栏而非根治。(2) 引用本身会幻觉——基础研究显示仅 51.5% 的生成句子被引用完全支撑(Liu et al., EMNLP 2023, arXiv:2304.09848),斯坦福 HAI 称之为”虚假可信的表象”。(3) 检索噪声可覆盖模型本已正确的推理——“模型已知答案时,检索反而帮倒忙”(arXiv:2510.09106)。(4) Lost-in-the-Middle:长上下文中间位置的信息被系统性忽视。(5) 时效性陷阱——即使语料里新旧信息并存,模型仍可能优先引旧信息(来源:HoH 基准, Ouyang et al., arXiv:2503.04800, 2025)。

被下一代超越的维度:单次检索(single-shot)的刚性——被 Agentic 检索的”动态决定何时检索什么”超越。

2026 年位置:从”一种模式”演化为”上下文引擎(Context Engine)“——RAG 不再只是知识库工具,而是统一管理领域知识、工具描述、对话历史三类上下文的动态装配基础设施(来源:RAGFlow From RAG to Context: 2025 Year-End Review,WebFetch 核实)。RAG 没有死,但它的边界从”检索”扩张到了”上下文工程”,与信息流工程视角(见 0417 上下文工程)开始合流。

[!warning] 对手框架回应 #1:「长上下文窗口(1M token)将淘汰 RAG」 接受的部分:百万级上下文确实让”小语料直接全塞进 prompt”在某些场景比搭建 RAG 管线更省事,对原型和小知识库是真实选项。坚持的边界:(1) 成本——注意力是 O(N²),全文塞入的 KV Cache 全量缓存方案成本比 RAG 高至少一个数量级(来源:RAGFlow 2025 年终回顾,WebFetch 核实);(2) “信息洪水(information flooding)“效应——全文灌入反而稀释信号、加剧 Lost-in-the-Middle,已被实验记录;(3) 时效——上下文窗口再大也装不下”今天的股价”。赌注:我赌 2–3 年内 RAG/混合检索仍是企业知识产品主力,长上下文是补充而非替代。这条结论的 failure scenario:若推理成本下降两个数量级且 Lost-in-the-Middle 被架构性解决,则小到中型知识库可能真的不再需要检索层。

§5 第五代:Agentic 检索与深度研究(2023–2026)——相关=当前推理步骤所缺的信息

代表技术/产品:Self-RAG(Asai et al., 2023/2024,用 IsREL/IsSUP/IsUSE 反思 token 按需触发检索)、FLARE(Jiang et al., 2023,生成置信度下降时主动检索)、A-RAG(Du et al., arXiv:2602.03442, 2026,暴露关键词/语义/chunk 三工具供代理分层选择);产品上是 OpenAI Deep Research(基于 o3,2025-02-15)与 Perplexity Deep Research(2025-02-24)。

推动力:单次检索拼接和刚性预定义工作流这两条死路,逼出”让模型主动参与检索决策”的转向。相关性被重定义为**“当前这一步推理所缺的那块信息”**——检索不再是查询时一次性的事,而是嵌入推理流、随推理状态动态变化的决策(这与 Agent 的工具调用范式同源)。

瓶颈:(1) 工程复杂、调试困难——检索决策嵌入推理流后,失败归因极难;(2) Self-RAG 的反思 token 训练成本高,小模型上效果不稳定(活跃研究领域,无定论);(3) 引用幻觉不降反升——Deep Research Agent 生成的引用更多,但 URL 幻觉率高于普通搜索增强 LLM(Gemini Deep Research URL 幻觉率 13.3%,OpenAI 3.5%,Claude 3.0–3.2%;来源:arXiv:2604.03173, 2026〔预印本,待评审〕);(4) 慢且贵——OpenAI Deep Research 单次 7–20 分钟、月配额受限。

被超越的维度:尚无下一代,这是 2026 年的前沿。

2026 年位置:前沿但未收敛。一个被广泛误读的命题是「Agents 替代 RAG」——这被 RAGFlow 评为”市场营销话术(market-driven stunt)“,现实是 Agents 依赖 RAG 做领域知识、对话历史、工具元数据三类检索,是补充非替代(来源:RAGFlow RAG at the Crossroads,WebFetch 核实,学界反方占优)。

知识图谱旁支(横切第二至五代):知识图谱检索(GraphRAG,Edge et al., arXiv:2404.16130, Microsoft, 2024,用 Leiden 算法层次聚类生成社区摘要)不是单独一”代”,而是贯穿各代的另一条相关性定义——“相关=实体关系图上的可达”。它在多跳推理(“A 经 B 到 C 的关系”)和需可溯源的受监管场景里不可替代:综合性提升 72–83%、根级摘要 token 减少最高 97%(同上来源);LinkedIn KG-RAG 客服部署后问题中位解决时间降 28.6%(Xu et al., arXiv:2404.17723, SIGIR 2024)。但它有明确边界——构建成本高、对频繁变化的数据维护困难,适合”写少读多”的稳定知识库。

§6 判断主轴:读检索代际史时 90% 的人会搞错的四个点

错点一:把”被超越”读成”被淘汰”。

  • 症状:选型会上说”上了向量检索,BM25 可以下了”。
  • 为什么会错:被线性进步史框架误导,以为每代是全维替换。
  • 正确做法:每代只在”某一个相关性维度”上被超越,其余维度(成本、可解释、精确匹配)常常没人能替代。默认混合,而非替换。
  • 真实反例:去掉 BM25 只留向量,专有名词/产品代码查询 Precision@5 掉 12–19%(largitdata.com, 2025)。

错点二:把”相关性”当成固定真值去逼近。

  • 症状:用同一套评测指标横跨多代比”谁更准”。
  • 为什么会错:每代重写了”相关”的定义,跨代比精度是跨范式比较,不可通约。
  • 正确做法:先问”这一代把相关定义成了什么”,再选与场景匹配的那一代——实时新闻选答案引擎、多跳关系选 KG、精确实体选 BM25。
  • 真实反例:用”语义相似”指标评 KG 检索,会判它”不够相似”,但 KG 的价值恰恰在关系而非相似。

错点三:以为新一代解决了上一代的幻觉/可信问题。

  • 症状:“上了 RAG/Deep Research 就不会幻觉了”。
  • 为什么会错:检索是外部护栏,治标不治本(c13 - 幻觉的不可消除性)。
  • 正确做法:检索越深,引用越多,越要做引用核验。
  • 真实反例:Deep Research Agent 引用更多但 URL 幻觉率反升(13.3% vs 普通搜索的个位数,arXiv:2604.03173, 2026)。

错点四:被”X 淘汰 Y”的代际叙事牵着走做选型。

  • 症状:听信”长上下文淘汰 RAG""Agent 淘汰 RAG”就砍掉现有检索层。
  • 为什么会错:这类叙事多为营销话术,学界反方占优。
  • 正确做法:把”淘汰论”当待证伪假设,用成本/时效/复杂度三把尺子自测。
  • 真实反例:KV Cache 全量缓存比 RAG 贵至少一个数量级(RAGFlow, 2025)。

§7 产品 PM 视角补盲

  • 用户心理模型:每代检索都在重塑用户的”验证习惯”。蓝链时代用户默认”答案在别处、我得自己点开核实”;答案引擎时代用户默认”AI 的回答就是答案”——验证链断裂。zero-click 增长下,“AI 的回答=用户对你品牌的直接体验”(来源:aiopsschool.com, 2026)。做知识产品时,引用 UI 不只是透明度,是在重建已被答案引擎瓦解的”用户自我验证”习惯。
  • 商业模式张力:答案引擎的单位经济是负的——Perplexity 同时背着搜索成本和 LLM 成本(见 Perplexity 节点的单位经济分析)。代际越往后,每次查询越贵(Deep Research 一次 7–20 分钟算力),这决定了后几代检索短期内只能做高客单价/低频场景,不能无脑铺到所有查询。
  • 合规边界:受监管行业(金融/医疗/法务)对”相关”的定义里天然含”可审计”——这恰恰是第一代 BM25 和知识图谱的强项、第三代向量黑箱的弱项。所以监管越重的场景,越要往谱系的”可解释端”回退,而非追最新一代。

§8 PM 决策启示

  • 面试:被问”你怎么看检索技术演进”时,不要背技术名词链,而是答”每一代重写了相关性的定义”+一个反线性进步史的具体反例(BM25 至今是混合检索地基)。这一句话能立刻把你和”读过几篇博客的候选人”区分开。
  • 选型:拿”相关性定义”做第一性筛选——你的核心查询是”找相似”(向量)、“找关系”(KG)、“要最新”(答案引擎/Web Search)、还是”要精确实体”(BM25)?多数真实场景是混合,所以默认混合检索,而非押注单一代。
  • 复现:搭最小可用检索时,从 BM25+向量混合+RRF 起步(最便宜、最稳、可解释),确有多跳需求再加 KG,确有动态决策需求再上 Agentic——按谱系从老到新增量加层,而非一上来就堆最新架构。

§9 与已有节点的关系

本节点是 02 代际演化模块的”详解”,衔接 G01(G01 给史观与”从导航到回答”的主线,G02 逐代填实代表技术/推动力/瓶颈/2026 位置)。

对照旧节点:

  • c09 - RAG 架构:c09 解剖 RAG 的工程实现(混合检索、Reranker、HyDE),本节点不复述实现,只把 RAG 放回检索谱系定位为”第四代”,做的是”历史定位补缺”。
  • m203 - RAG 生产环境:Embedding 与文档解析 / m204 - RAG 生产环境:Chunking 与范式演进 / m205 - RAG 生产环境:索引运维与评估体系:这三者是生产工程视角,本节点是”代际史视角”,做的是抽象层升高(把工程细节归位到演化谱系里),不重述其运维/评估细节。
  • c13 - 幻觉的不可消除性:c13 论证幻觉的架构必然性,本节点调用并对话——用 c13 的结论解释”为什么每一代检索都降幻觉但都降不到零”,是”深化+对话”。
  • 对 0417(上下文工程/信息流):本节点把第四代 RAG 的 2026 位置标为”演化成上下文引擎”,与 0417 的信息流视角合流,是跨专题对话(本节点谈”检索作为知识产品的代际”,0417 谈”信息流工程”,互补不复述)。

§10 关联节点

核心(必读)

延伸(可选)

修订日志

  • R0(2026-06-07):首稿。按”相关性定义重写”框架重写检索五代谱系+知识图谱横切旁支,逐代四问(代表技术/推动力/瓶颈/被超越维度/2026 位置),强反线性进步史(每代附”没死的部分”+两处 confirmation-bias 砍除),接入两处对手框架回应(长上下文淘汰论、Agent 替代论),跨域呼应 Kuhn/Lakatos/维特根斯坦,事实接地至 arXiv/产品来源;A-RAG(2602.03442)与 URL 幻觉论文(2604.03173)arXiv ID 经 WebFetch 验证存在。