G01 上下文管理代际谱系总图 · 知识库

我们如何把”想让模型知道的东西”塞进模型——这件事在过去六年里换过五种范式，每一次换代都不是上一代的优化版，而是上一代撞墙后的”逃逸方向”。本节点要解决的问题是：给这五代（prompt → few-shot → RAG → long-context → context engineering + memory）画一张谱系图，标清每一代的驱动力、瓶颈、被它压抑而后反扑的反例，并论证一个反直觉的结论——这条线不是进步阶梯,而是 Kuhn 意义上一串不可通约的范式切换,新一代往往要”复活”被上一代判死刑的旧手段。框架名:代际谱系学(genealogy),刻意不叫”演化史”,因为”演化”暗示单向进步,而谱系学(借福柯)要做的恰恰是拆穿这种进步叙事的连续性幻觉。

§0 为什么用”谱系学”而不是”技术演进时间轴”

读者脑中默认的框架是一条时间轴 + 能力曲线:prompt 弱、few-shot 强一点、RAG 更强、long-context 又更强、context engineering 集大成。这个框架有三个致命错误,本节点要先把它拆掉。

第一,它假设后一代包含前一代的全部能力。事实相反:long-context 普及后,大量团队删掉了 RAG 管线,结果撞上”context rot”(见 m205 - RAG 生产环境：索引运维与评估体系的评估视角),又把 RAG 装了回来——这不是”包含”,是来回拉锯。第二,它假设驱动力是”模型变强”。实际上每一代的驱动力各不相同:RAG 的驱动力是”知识时效性 + 成本”,根本不是”模型能力”;long-context 的驱动力是硬件(FlashAttention 让长序列可算),也不是”想让模型更聪明”。第三,它把每一代写成”解决了上一代的问题”,掩盖了每一代制造的新问题恰恰是下一代的诱因。

谱系学框架(对照范式与 0114认识论中的 Kuhn 条目)要求我们对每一代问三件事:(1)它在回应谁的失败?(2)它压抑了什么,而那个被压抑的东西后来怎么反扑?(3)它和前一代是”同一把尺子上的刻度”,还是”换了把尺子”?用这套问法,五代的真实关系会浮现出断裂而非连续。

[!note] 跨域呼应:Kuhn 的”不可通约性”(incommensurability) Kuhn 在《科学革命的结构》里说,范式切换后,新旧两派”谈论的不是同一个世界”——他们对”什么算证据、什么算成功”的标准都变了。把这套用到上下文管理:prompt engineering 时代的成功标准是”这句话写得巧不巧”(措辞艺术);context engineering 时代的成功标准是”窗口里这批 token 的信噪比够不够高”(资源配置)。这两套标准不可通约:一个 prompt 高手的全部直觉(怎么措辞、怎么角色扮演)在 context engineering 的问题域里几乎用不上,因为后者的主战场是”该不该让这段工具输出进窗口""该外化到 memory 还是走 RAG”——这些问题 prompt 时代根本不存在。所以 Karpathy 说 context engineering 不是 prompt engineering 的升级而是”另一门手艺”(2025-06-25,见下),正是 Kuhn 式的判断:不是同一把尺子上走得更远,是换了把尺子。

§1 第一代:Prompt(2019–2021)——驱动力、瓶颈、反例

驱动力:GPT-2/GPT-3 时代,模型是”补全引擎”,你给一段开头它续写。唯一的接口就是那段文字本身,于是”怎么写这段开头”成了全部技艺。GPT-3 论文(Brown et al., 2020,“Language Models are Few-Shot Learners”,〔已核实:NeurIPS 2020〕)把这件事推到顶峰:不微调,只靠 prompt 就让一个模型做几十种任务。

瓶颈:单条指令的表达力有限。模型不知道”你到底想要什么格式/什么风格/什么边界”,纯靠措辞猜。这导致 prompt 极其脆弱——同义改写一句话,输出质量可能天差地别(这种脆弱性后来被 m201 - Prompt Engineering 实战体系系统化为”格式锚定/优先级管理”等工程原则)。

反例(反线性):第一代不是”原始而弱”。恰恰相反,纯 prompt 在单轮、知识密集型、无外部依赖的任务上至今是最优解——你问”把这段中文翻成英文”根本不需要 RAG、不需要 memory、不需要 agent。把简单任务硬塞进重型 context pipeline,是 2025 年常见的过度工程。第一代没有被淘汰,它退守到了它本就该待的地方。

§2 第二代:Few-shot / In-Context Learning(2020–2022)——驱动力、瓶颈、反例

驱动力:发现”在 prompt 里塞几个示例,模型就能照着做”,即 in-context learning(ICL)。这是范式内的一次跃迁:从”描述任务”到”演示任务”。GPT-3 论文的副标题就是 few-shot learner。

瓶颈:示例占 token、占窗口,且示例选得好不好高度敏感(后来有大量研究,如示例顺序、示例分布都显著影响结果)。更深的瓶颈是:few-shot 只能塞进”几个”例子,无法塞进”一个知识库”。当任务需要的不是”模仿几个样例”而是”调取大量外部事实”时,few-shot 的容器装不下。

反例(反线性):few-shot 没有被 RAG 取代,而是被吸收进了后面每一代——RAG 检索回来的 chunk、agent 的工具调用范例、context engineering 里精选的 few-shot,本质都还是 in-context learning。同时,2022 年 CoT(Chain-of-Thought,Wei et al.,〔已核实:NeurIPS 2022〕)的出现证明:在窗口里”演示推理过程”比”演示答案”更强——这说明 few-shot 这条路本身还有纵深,并非被一脚踢开。详见 m201 - Prompt Engineering 实战体系的 CoT 变体一节。

§3 第三代:RAG(2020–2023)——驱动力、瓶颈、反例

驱动力:三个 prompt/few-shot 解决不了的硬约束。(1)知识时效性:模型参数是冻结的,昨天发生的事它不知道,塞进窗口才行。(2)知识规模:企业有百万级文档,窗口装不下,必须”按需检索”。(3)成本:把整个知识库每次都塞进窗口,token 成本爆炸,检索只送相关片段便宜得多。RAG 论文(Lewis et al., 2020,“Retrieval-Augmented Generation”,〔已核实:NeurIPS 2020〕)奠基,工程体系成熟于 2022–2023。完整架构见 c09 - RAG 架构,生产细节见 m203 - RAG 生产环境：Embedding 与文档解析、m204 - RAG 生产环境：Chunking 与范式演进、m205 - RAG 生产环境：索引运维与评估体系。

瓶颈:检索本身会错。chunk 切坏了语义断裂、embedding 召回不准、相关但无关的干扰片段拉高幻觉率。RAG 把”模型不知道”的问题转化成了”检索系统找不准”的问题——问题没消失,只是搬了家。这条”问题搬家”的链路是谱系学的核心证据:每一代都在转移问题,而非消灭问题。

反例(反线性):2024 年 long-context 普及后,一度盛传”RAG 已死,直接全塞进窗口”。但到 2025 年底,RAGFlow 等把 RAG 称为企业 AI”不可或缺的基础设施”(来源:RAGFlow 2025 年终回顾,ragflow.io)——RAG 不仅没死,还从”检索增强”进化为”Context Engine”。这是最锋利的反线性证据:被宣判死刑的第三代,在第五代里被重新加冕为信息流的核心调度者。

§4 第四代:Long-Context(2023–2024)——驱动力、瓶颈、反例

驱动力:硬件 + 注意力优化让长序列可算。Gemini 1.5 Pro(2024-02 发布,1M token 正式可用,实验版 2M,来源:Google DeepMind arXiv:2403.05530)、Claude 200K、GPT-4-128K 把窗口从”几页纸”拉到”几本书”。叙事变成:既然能全塞进去,何必检索?注意 driver 是工程能力(参见 Attention、KV Cache),不是”模型变聪明”。

瓶颈——这是整张谱系图判断密度最高的地方:窗口标称值远大于”有效”值。三组确证数据:

现象	确证数据	来源
Lost in the Middle(U 形曲线)	20 文档 QA,答案在首/尾约 75%,在第 10 篇(中间)降至约 55%,跌约 20pp	Liu et al., TACL 2024(arXiv:2307.03172)
RULER 实测	17 个模型中仅 4 个在 32K 达标;Mixtral 标称 32K,128K 时得分仅 44.5/100	Hsieh et al., COLM 2024(arXiv:2404.06654)
NoLiMa 语义检索	Claude 3.5 Sonnet 从 1K 的 87.6% 跌至 64K 的 29.8%;GPT-4o 实际有效约 8K(标称 128K)	Modarressi et al., ICML 2025
Context Rot 普遍性	Chroma 测 18 个前沿模型,无一例外随长度性能单调下降	Chroma Research, 2025-07

根因是架构属性:RoPE(旋转位置编码)的长距离衰减 + Softmax 注意力稀释,不是训练能根除的能力缺陷(An et al., 2024, arXiv:2410.18745)。这意味着”窗口越大越好”是错的——这正是本专题的核心命题之一。

反例(反线性):long-context 没有取代 RAG/memory,反而暴露了一个更深的问题:既然窗口大了反而可能更差,那么”放什么进窗口”就比”窗口有多大”更关键。第四代用自己的失败,亲手催生了第五代。这是谱系图里最干净的一次”范式自我否定”:long-context 兑现了承诺(窗口真的变大了),却因此证伪了承诺背后的假设(大就是好)。

§5 第五代:Context Engineering + Memory(2024–2026)——驱动力、瓶颈、反例

驱动力:agent 时代到来。单轮对话变成多步执行,窗口在任务过程中动态变化,prompt 的一次性设计彻底失效。术语在 2025 年中引爆:Tobi Lütke(2025-06-19,X)公开背书”context engineering 比 prompt engineering 更准确”;Karpathy(2025-06-25,X)+1 并定义为”the delicate art and science of filling the context window with just the right information for the next step”;Anthropic(2025-09-29)发布《Effective Context Engineering for AI Agents》,提出 context rot 概念与核心问题框架”what configuration of context is most likely to generate our model’s desired behavior?”。学术上有 166 页综述(arXiv:2507.13334,分析 1400+ 篇论文)。

核心范式转移有二。其一,context window 是需主动管理的资源(像 OS 管理内存),LangChain 系统化为 Write / Select / Compress / Isolate 四操作(2025-07)。其二,memory layer 升格为一等公民:MemGPT(arXiv:2310.08560,UC Berkeley)把 OS 内存分层映射到 LLM,Mem0(arXiv:2504.19413)做到生产级(相比 full-context,LLM-as-Judge +26%、P95 延迟 -91%、token 成本 -90%,LOCOMO 基准)。信息有了四个去向的决策:放 context / 外化 memory / 走 RAG / 让 subagent 先消化回传——这套决策框架是第五代区别于前四代的根本标志(详见本专题 03 架构剖面与 m206 - Agent 产品化：记忆机制与技术进展)。

瓶颈:第五代远未收敛,自身充满未决争议。(1)这到底是不是新东西? Hacker News 与部分从业者认为 context engineering 不过是 RAG + memory management 的换皮(news.ycombinator.com/item?id=44464219)。辩护方(Simon Willison)回应:术语价值在于”从 prompt 被污名化的错误联想中逃脱”,不是宣称发现新技术。(2)子 agent 隔离值不值? Cognition《Don’t Build Multi-Agents》(2025)强力反对——他们主张”share full agent traces, not just individual messages”,认为当前模型跨 agent 沟通可靠性不足,单线程 + 完整上下文常优于多 agent;而 LangChain/Vellum 等实践者认为隔离能用 scoped prompts 弥补。这是活跃争论,无定论。

反例(反线性):第五代最锋利的反例是它复活了被前几代判死刑的全部旧手段。RAG(第三代,曾被宣告”已死”)回来当 Context Engine;few-shot(第二代)回来当精选示例;甚至 observation masking(把旧工具结果换占位符)本质是”主动遗忘”,而遗忘正是最古老的、prompt 时代被认为”模型做不到”的事。第五代不是终点,而是把前四代的器官重新装配成一个动态系统——这恰恰证明谱系不是淘汰史。

[!note] 判断主轴:90% 的人在代际谱系上会犯的三个错 错误一:把代际当能力阶梯,用新代否定旧代。 症状:“我们上了 long-context,可以把 RAG 删了” / “有了 agent memory,prompt 不重要了”。为什么会错:误以为后一代包含前一代,忽略了每一代解决的是不同的约束(prompt 解措辞、RAG 解时效+规模+成本、long-context 解工程可算性、CE 解 agent 动态信息流)。正确做法:按约束选代,而非按”先进程度”选代。真实反例:2024 删 RAG 改 long-context 的团队,2025 因 context rot 把 RAG 装回(RAGFlow 2025 年终回顾)。

错误二:把”窗口大”等同于”能用上”。 症状:看到 1M token 就把整个知识库塞进去。为什么会错:标称窗口 ≠ 有效窗口,RoPE 衰减是架构属性。正确做法:按 RULER/NoLiMa 这类基准评估”有效上下文”,通常 ≤ 标称的 50%。真实反例:GPT-4o 标称 128K,NoLiMa 测有效约 8K。

错误三:把术语切换误读为”什么都没变,只是改了名”。 症状:“context engineering 不就是 RAG 吗?换汤不换药。“为什么会错:看名字的连续性,没看问题域的断裂——CE 处理的”四去向决策""context window 作为资源”在 prompt/RAG 时代不构成问题。正确做法:用 Kuhn 的不可通约性判断范式是否真的换代——看成功标准变没变,而非看词换没换。真实反例:Anthropic 的 context rot 是 agent 时代新出现的具体工程挑战,不是 RAG 的旧问题重命名(Anthropic Engineering Blog, 2025-09-29)。

§6 产品 PM 视角补盲

工程视角容易把这张图读成”选哪代技术”,但 PM 要补三个非工程盲点。其一,采购/合规节奏:RAG 让”数据留在自家向量库”成为合规卖点(数据不进模型),long-context 则要求把全文喂进 API——对受监管行业(金融、医疗、以及 Rick 熟悉的出行安全数据),这不是技术选择而是法务红线,代际选择被合规倒逼。其二,成本心智模型错配:用户/老板的直觉是”窗口越大越值”,而真实账单是长上下文每查询可能比 RAG 贵 1–3 个数量级(第三方估算,见 m209 - 推理成本控制手册),PM 要管理这个预期落差。其三,memory 的信任与隐私:memory layer 升格为一等公民后,产品开始”记住用户”,但记错/记过时/泄露记忆都是新的用户信任风险(记忆衰减→时效幻觉链路见幻觉与 m206)——这是 prompt 时代根本不存在的产品伦理面。

§7 对手框架回应

接受 Cognition 的反多 agent 立场:他们对”隐式决策冲突”和”上下文割裂”的批评是对的——并行子 agent 各自合理的决策组合起来可能失败(那个 Super Mario 背景 + 不兼容角色的例子很有说服力)。但坚持本专题的边界:Cognition 的结论”单线程优于多 agent”成立的前提是”任务能装进一个窗口”;一旦任务的探索量超过有效上下文(§4 已证标称 ≠ 有效),subagent 先消化回传就不是可选项而是必需项。我赌的是:模型跨 agent 沟通可靠性会随版本提升,而单窗口的 context rot 是架构属性、短期内不会消失——所以隔离的价值会上升而非下降。这是个可证伪的赌注:如果 2027 年出现真正抗 context rot 的架构(如某种 RoPE 变体规模化落地),这个判断就该被推翻。

接受”换皮论”的合理内核:context engineering 确实大量复用 RAG/memory 的既有技术,没有发明全新算法。但坚持:范式的边界不由”是否有新算法”划定,而由”问题域是否断裂”划定(Kuhn)。CE 把分散的技术重组进”四去向决策”这个新问题框架下,这个框架本身是新的——正如”软件工程”没发明新的编程语言,但它把编程重组进了一个新问题域。

§8 PM 决策启示

面试:被问”RAG 和 long-context 怎么选”,不要答”看场景”这种废话;答”它们不在一个代际的同一把尺子上——RAG 解时效/规模/成本,long-context 解工程可算性,且有效窗口 ≤ 标称 50%(RULER),所以默认 Self-Route 路由,而非二选一”。一句话展示你有谱系视角而非时间轴视角。选型:用”这一代解决的是哪个约束”来反推该不该上,而不是”这是不是最新的”。复现:Rick 作为 Claude Code 深度用户,E01(本专题实例剖解)会展示 CLAUDE.md 如何同时调用五代手段——这是一手体感最强的代际同台案例。

§9 与已有节点的关系

本节点对照并升级三类旧节点,不复述其事实基础:对 c09 - RAG 架构及 m203/m204/m205,本节点把它们从”RAG 是什么/怎么做”升到”RAG 在五代谱系里的位置与它的死而复生”,做的是抽象层抬升 + 纵向定位(它们提供横切面,本节点提供时间轴)。对 m201 - Prompt Engineering 实战体系,本节点把”prompt 是技艺”对话为”prompt 是第一代、其技艺在 CE 时代被局部废黜”,做的是对话 + 边界化。对 m206 - Agent 产品化：记忆机制与技术进展,本节点把 memory 从”agent 的一个机制”升到”第五代的范式标志”,做的是纠偏(memory 不是 agent 的附属,是 CE 范式的一等公民)。与 m209 - 推理成本控制手册的关系是引用(代际选择的成本后果由 m209 量化)。

§10 关联节点

核心(必读)

c09 - RAG 架构 —— 第三代的完整架构,本图的纵向锚点之一
m201 - Prompt Engineering 实战体系 —— 第一/二代的工程化沉淀
m206 - Agent 产品化：记忆机制与技术进展 —— 第五代 memory 一等公民的技术细节
范式 —— Kuhn 不可通约性,本节点的方法论底座
0114认识论 —— 谱系学 vs 进步史的哲学分野

延伸(可选)

m203 - RAG 生产环境：Embedding 与文档解析、m204 - RAG 生产环境：Chunking 与范式演进、m205 - RAG 生产环境：索引运维与评估体系 —— 第三代的生产纵深
m209 - 推理成本控制手册 —— 代际选择的成本量化
Attention、KV Cache、Prompt Caching —— 第四代 long-context 的硬件/算法底座
Embedding、RAG、Agent、幻觉 —— 跨代复用的原子概念
Claude Code、Gemini、Claude —— 各代的产品载体
AI PM 知识图谱·总索引 —— 回到总图

修订日志

2026-06-07 R0:首稿。建立五代谱系(prompt→few-shot→RAG→long-context→CE+memory),每代标驱动力/瓶颈/反例,以 Kuhn 不可通约性为反线性主轴,接入 Cognition 反多 agent 与”换皮论”两个对手框架,补 PM 合规/成本/隐私三盲点。硬数据(RULER/NoLiMa/Context Rot/CE 起源时间线)均已接地。