G02 上下文管理代际演化详解

G01 上下文管理代际谱系总图给了一张”谁接替谁”的全景地图。本节点把地图里每一格放大:逐代追问代表技术是什么、推动它上位的力量是什么、它撞到的瓶颈在哪、被下一代以什么方式超越、以及它在 2026 年还活着吗。一句话立场:上下文管理不是一条”窗口越来越大”的单调上升线,而是一部**“把信息塞进窗口”的幼稚乐观,被一次次现实打脸后,演化成”主动管理一个稀缺资源”的成熟工程学**的历史——而且每一代的胜利都埋着下一代要还的债。

§0 为什么用”代际”而不是”技术清单”这个框架

代际(generation)和技术清单(tech list)的区别,是 Kuhn 式的:清单把 prompt engineering、RAG、long context、memory、context engineering 并列成一排可选工具;代际则坚持它们之间有不可通约的范式断裂——后一代之所以出现,正是因为前一代撞墙撞到无法在自己的框架内自救。

这个区分对 PM 是致命的。如果你把它们当清单,你会问”我该上 RAG 还是上 long context”;如果你看懂代际,你会问”我现在站在哪一代的债务上,下一代要还的是什么”。前者是选型,后者是判断。本节点选代际框架,就是为了挡掉”这些都是平行工具任选其一”这个最常见的误判。

下面用一条主线串起五代。⚠️代际编号是本专题的分析建构,不是业界统一标号——不同来源切法不同,这里按”主导矛盾的转移”来切。

§1 第一代:Prompt Engineering(2020–2023)——“把指令写好就行”

代表技术与接地:few-shot prompting(GPT-3 论文 “Language Models are Few-Shot Learners”,Brown et al.,2020)、Chain-of-Thought(Wei et al. 2022)、System Prompt 设计。这一代的世界观是:模型是个黑箱,你能动的只有送进去的那段文字,所以全部功夫花在”怎么写这句话”。

推动力:GPT-3(2020)首次让”不微调、只靠提示就能改变行为”成为可能,prompt 从此是产品层唯一可调旋钮。2022–2023 ChatGPT 引爆后,“Prompt Engineer”一度被炒成年薪神话。

瓶颈(被下一代超越的根因):prompt engineering 的隐含假设是上下文是静态的、一次性写好的。但它解决不了两个硬问题:(1)模型的参数知识有截止日期,prompt 再精巧也变不出训练时不存在的事实;(2)知识库远大于窗口,你没法把整个公司 wiki 写进 system prompt。Karpathy 后来一针见血:人们把 prompt 联想成”日常随手给 LLM 的简短任务描述”(来源:Karpathy on X,2025-06-25,x.com/karpathy/status/1937902205765607626)——这个污名化恰恰暴露了第一代的天花板。

反例(防线性进步史):第一代并没死。CoT、few-shot、结构化提示至今是每一代的底座(见 m201 - Prompt Engineering 实战体系)。所谓”被超越”,是它从全部降级为一个子集——Anthropic 与 Karpathy 都明确把 prompt engineering 划为 context engineering 的真子集,而非废弃品。

2026 位置:活着,且是地基。但作为独立”范式”已被吸收。

§2 第二代:RAG(2020–至今)——“窗口装不下,就去外面取”

代表技术与接地:Retrieval-Augmented Generation,原始论文 Lewis et al. 2020(Facebook AI)。机制是检索外部知识库的相关片段,拼进上下文再生成。详见本库 c09 - RAG 架构与 m203 - RAG 生产环境：Embedding 与文档解析、m204 - RAG 生产环境：Chunking 与范式演进、m205 - RAG 生产环境：索引运维与评估体系。

推动力:它正面解决了第一代的两个死穴——用 Embedding 检索把”无限知识库”变成”按需注入的少量片段”,且数据可实时更新,绕开参数知识的时效幻觉(见幻觉)。这是第一次,工程焦点从”怎么写”转向”放什么进去”。

瓶颈:RAG 引入了一整套新的失败模式——chunking 切碎了语义、检索召回不全、相关但无关的片段反而拉高幻觉率。更深的问题是 c09 - RAG 架构已经论证过的 Lost in the Middle(Liu et al.,TACL 2024,arXiv:2307.03172):20 文档 QA 中,答案放在中间(第 10 篇)准确率约 55%,放首尾约 75%,跌幅约 20 个百分点——塞进窗口不等于被读到。RAG 把”取什么”做对了,却没解决”取来的东西模型会不会看”。

反例:RAG 一度被宣判”将被长上下文取代”。事实相反:到 2025 年底,RAG 在企业部署中”固化为不可或缺的基础设施”(来源:RAGFlow 2025 年终回顾,ragflow.io/blog/rag-review-2025-from-rag-to-context),并从”检索增强”进化为”Context Engine”。第二代没被超越,而是变成了第五代信息流的一个去向选项。

2026 位置:活着且强势,但定位从”答案”降级为”信息流四去向之一”。

§3 第三代:Long Context(2023–2025)——“窗口够大,就全塞进去”

代表技术与接地:128K–1M token 窗口的普及。Gemini 1.5 Pro(2024-02)正式提供 1M token,实验版 2M(技术报告 arXiv:2403.05530);Claude 与 GPT-4 系跟进 128K–200K。这一代的乐观信念是:窗口大到一定程度,RAG 那套检索管线就是多余的工程负担,直接全文丢进去最干净。

推动力:NIAH(Needle-in-a-Haystack,Greg Kamradt 2023-11-08 首发)测试上,Gemini 1.5 Pro 文本召回 >99.7% 至 1M token——看起来窗口问题已被”暴力”解决。EMNLP 2024 industry track(Li et al.,arXiv:2407.16833)也确认:资源充分时,长上下文平均性能持续高于 RAG。

瓶颈(这一代摔得最响):三记重锤打碎了”越大越好”的幻觉——

RULER(Hsieh et al.,NVIDIA,COLM 2024,arXiv:2404.06654):声称的窗口 ≠ 有效窗口。Mixtral 声称 32K,128K 时得分仅 44.5/100;17 个模型里仅 4 个在 32K 真正达标。
NoLiMa(Adobe,ICML 2025):去掉字面匹配、要求语义推理后,Claude 3.5 Sonnet 从 1K 的 87.6% 跌到 64K 的 29.8%(-57.8pp),Gemini 1.5 Pro 从 92.6% 跌到 48.2%;研究估算 GPT-4o 实际有效上下文约 8K,尽管声称 128K。
Context Rot(Chroma,2025-07-14 系统测评,18 个前沿模型):无一例外,所有模型随输入增长性能单调下降。根因是架构属性——RoPE 旋转位置编码的长距离衰减,远距离 token 点积相似度系统性降低,无法靠训练根治。

也就是说:第三代的”全塞进去”是用钱买了一个有效利用率打骨折的窗口。An et al. 2024(arXiv:2410.18745)给出规律:开源模型有效上下文普遍 ≤ 声称窗口的 50%。

反例:长上下文也没失败。它在跨文档推理、全局摘要上确实强于 RAG,且省掉了索引运维。它的真正教训不是”没用”,而是证伪了”窗口越大问题越少”这个直觉——把窗口从”免费的大箱子”打回”需要精算的稀缺资源”。这恰恰是第四、第五代的起点。

2026 位置:活着,是默认能力,但”无脑全塞”已被证伪;长上下文 vs RAG 的主流答案变成 Self-Route 按查询路由(EMNLP 2024:Self-Route 把 Gemini-1.5-Pro 计算成本降 65%,接近 LC 性能)。

§4 第四代:Memory Layer(2023–至今)——“窗口装不下时间,就把记忆外化”

代表技术与接地:RAG 解决”空间”(知识库太大),Memory 解决”时间”(跨会话、跨任务的状态)。开山是 MemGPT(Packer et al.,UC Berkeley,arXiv:2310.08560,2023-10),把操作系统的内存分层(RAM/磁盘)类比映射到 LLM:main context(≈RAM)+ external context(≈磁盘),由 LLM 自己用工具调用(core_memory_append、archival_memory_search)驱动数据在层间搬运。后框架化为 Letta(2024)。生产侧代表是 Mem0(Chhikara et al.,arXiv:2504.19413,2025-04):在 LOCOMO 上相比 OpenAI full-context,LLM-as-Judge 提升 26%、P95 延迟降 91%、token 成本降 90%。本库 m206 - Agent 产品化：记忆机制与技术进展已系统拆过短期/长期记忆架构。

推动力:Agent 时代到来。单轮问答变成多步、跨会话执行,模型需要”记得三天前用户说过的偏好""记得这个项目的架构决策”——这是 prompt、RAG、long context 谁都给不了的持久状态。Memory 由此从工程技巧升格为一等公民:用 arXiv:2603.07670(Pengfei Du,2026-03)的话,“Memory is what turns a stateless text generator into a genuinely adaptive agent.”

瓶颈:记忆带来的全是新难题。(1)检索准 ≠ 记得对:LongMemEval(ICLR 2025,arXiv:2410.10813)发现商业助手在跨会话记忆上准确率下降 30%,且高检索率与知识更新/时间推理能力不相关。(2)遗忘与冲突:何时遗忘、如何安全更新而不传播幻觉,是开放问题。(3)Benchmark 可信度危机:Mem0 报告 MemGPT 在 LoCoMo 得 68.5%,但 Letta(MemGPT 原作者)公开质疑无法复现、方法论不透明,并用 GPT-4o mini + 文件系统操作反测出 74.0%(来源:letta.com/blog/benchmarking-ai-agent-memory)——这场争议暴露了孤立工具 benchmark 代表不了真实 agent 性能。

反例:别把 memory 写成”终于解决了上下文问题”。它解决的是状态持久化,但每次记忆操作消耗推理 token,规模化成本高;且”记什么、记多久”本身又是一个需要工程判断的新战场。

2026 位置:活跃前沿,产品化加速(Mem0 GitHub 41,000+ stars、2025-10 融资 $24M),但标准未定、benchmark 争议未决。

§5 第五代:Context Engineering(2025–)——“上面这些都是手段,真正的对象是 token 空间本身”

代表技术与接地(强接地):这一代的标志不是某个新算法,而是视角的格式塔切换——把前四代统一收编为”对 context window 这个稀缺资源的主动管理”。时间线确证:

2025-06-19 Shopify CEO Tobi Lütke 发推背书 “context engineering” 优于 “prompt engineering”(来源:x.com/tobi/status/1935533422589399127,190 万浏览),引爆传播——但他并非首创此词。
2025-06-25 Karpathy +1 并给严谨定义:“the delicate art and science of filling the context window with just the right information for the next step”(来源同上,230 万+ 浏览)。
2025-07-02 LangChain 把它系统化为四操作:Write / Select / Compress / Isolate,类比操作系统管理 CPU 内存(langchain.com/blog/context-engineering-for-agents)。
2025-07-17 学术综述 “A Survey of Context Engineering for LLMs”(Mei et al.,arXiv:2507.13334),分析 1400+ 篇论文。
2025-09-29 Anthropic 官方技术文章 “Effective Context Engineering for AI Agents”,定义为”curating and maintaining the optimal set of tokens at inference time”,并正式命名 context rot(anthropic.com/engineering/effective-context-engineering-for-ai-agents)。

推动力:第三代证伪了”越大越好”,第四代证明了 memory 是独立维度——于是必然出现一个更高抽象层,来回答”对任意一条信息,我该放进 context、外化进 memory、走 RAG、还是让 subagent 先消化再回传?”这正是本专题的核心命题:信息流四去向决策。Karpathy 的核心隐喻——context engineering 是”the new full-stack skill”——说的就是它升格为独立工程范式。

当下的具体工程(2026 接地):这一代已经落到可调 API。Anthropic 的 clear_tool_uses_20250919(观测遮蔽)、compact_20260112(摘要压缩,默认 150K 触发,100 轮搜索实验 token 减 84%)、memory_20250818(记忆工具)。JetBrains Research(2025-12)在 SWE-bench 上实测:Observation Masking 比 LLM Summarization 更便宜更可靠(Qwen3-Coder 480B 解决率 +2.6%、成本 -52%),而 Summarization 反而使 runtime +15%。Context Editing + Memory 工具组合让 agent 搜索性能 +39%(Anthropic 数据)。

瓶颈与反例(防止把第五代也写成终点):这一代最大的风险是它自己可能就是换皮。Hacker News 的批评直白:“context engineering 不过是多数人早就在做的东西,换了个名字”(news.ycombinator.com/item?id=44464219);OpenAI 社区甚至有帖子预言连这个术语都将被 “automated workflow architecture” 取代。本专题立场:争议尚未终结——传播速度与学术系统化属实,但是否构成学科边界突破,仍在争论。

2026 位置:当下主导范式,但”是否足够不同于 prompt engineering”这一根本问题未决。

判断主轴:代际叙事里 90% 的人会踩的三个坑

[!warning] 致命错位:把代际当”替代”而非”债务转移”

坑 1:把”长上下文取代 RAG”当成已完成的事实

症状:“现在 1M 窗口了,RAG 该退休了”。
为什么会错:被 NIAH 99.7% 召回率误导,以为窗口大就读得全。
正确做法:看 NoLiMa/RULER——有效窗口常 ≤ 声称的 50%,GPT-4o 实际有效约 8K。RAG 与长上下文是 Self-Route 互补,不是替代。
真实反例:Mixtral 声称 32K,RULER 测 128K 时仅 44.5/100。

坑 2:把”窗口越大越好”当公理

症状:选型时只比 context window 数字大小。
为什么会错:把窗口当免费的大箱子,忽略 context rot 是架构属性(RoPE 长距离衰减),塞越多读越差。
正确做法:Anthropic 的原则——“find the smallest set of high-signal tokens that maximize desired outcomes”,找最小高信号集合,不是最大集合。
真实反例:Liu et al.,GPT-3.5-Turbo 在 20–30 文档下准确率(56.1%)低于其闭卷表现——给更多上下文反而更差。

坑 3:把代际读成”一代更比一代强”的线性进步史

症状:“prompt 过时了、RAG 过时了,现在是 context engineering 时代”。
为什么会错:每一代的”被超越”是被降级为子集/选项,不是被废弃。prompt 是底座、RAG 是去向之一、long context 是默认能力、memory 是独立维度——它们在第五代里全活着。
正确做法:把代际读成”主导矛盾的转移”,每一代解决了上一代的痛,又欠下新的债(RAG 欠 Lost-in-Middle、long context 欠 context rot、memory 欠 benchmark 可信度)。
真实反例:RAG 被宣判”将被长上下文取代”,结果 2025 年底”固化为不可或缺的基础设施”。

产品 PM 视角补盲

用户心理模型:用户对”AI 记得我”的期待远超工程现实。Memory 一旦记错或记了不该记的(隐私),信任崩塌速度远快于功能价值积累——这是产品风险,不是技术参数。LongMemEval 的”主动放弃(abstention)“维度对 PM 是金矿:敢说”我不记得”的产品,可能比假装记得的更可信。
商业模式:代际演化直接改写成本结构。长上下文每查询可比 RAG 贵几个数量级(第三方估算量级差距巨大,具体数字依赖假设,见 m209 - 推理成本控制手册与本专题成本节点)。PM 选哪一代,本质是在选成本曲线。
合规边界:Memory layer 把”数据保留”从一次性调用变成持久存储——GDPR 的”被遗忘权”在 agent memory 上几乎没有成熟工程答案,“习得性遗忘”还是研究前沿。

对手框架回应

接受 + 边界,不是反驳。

对 Hacker News “换皮论”:接受其对的部分——context engineering 确实没发明新算法,大量内容与 RAG/memory management 重叠;Simon Willison 自己都承认价值在于”从错误联想中逃脱”而非发现新技术。但坚持本专题的边界赌注:命名是有认识论后果的(见 0114认识论)。当一个领域有了共享词汇,工程实践会向它收敛——LangChain 的 Write/Select/Compress/Isolate 四操作、Anthropic 的可调 API,都是”换皮”之后才长出来的可操作框架。换皮与范式之争,2–3 年内见分晓,但 PM 决策无法等待。
对 Cognition “Don’t Build Multi-Agents”(2025):接受其核心洞察——子 agent 隔离会造成”上下文割裂”,并行子 agent 的隐式决策会冲突(他们的 Super Mario 例子很硬)。但坚持边界:这是模型可靠性问题而非”信息流四去向”框架的失败;subagent 先消化回传在探索型任务上(子 agent 历史不必污染主上下文)依然是延迟上下文耗尽的有效手段。何时隔离、何时全量共享,是一个任务依赖的工程判断,不是非黑即白。

跨域呼应:Kuhn 的”不可通约性”为什么让代际叙事不只是时间排序

调度范式(Kuhn《科学革命的结构》)。Kuhn 的核心不是”科学进步”,而是范式转移前后的不可通约性(incommensurability):旧范式的问题在新范式里可能根本不成立,两套语言无法互译。这恰好改变了我对上下文管理史的判断——

如果只用”进步”框架,我会把五代排成一条优化曲线,默认每代都在解同一个问题、只是解得更好。但 Kuhn 逼我看到:第三代的”如何把更多信息塞进窗口”这个问题,在第五代里根本不成立——第五代问的是”如何让最少的高信号 token 留在窗口里”,目标函数从 max 变成 min。这不是同一问题的更优解,而是问题本身被重写了。Context rot 之所以是”格式塔切换”的扳机,正因为它让”窗口=容器,越大越好”这个旧范式的核心隐喻失效,逼出”窗口=稀缺注意力预算”的新隐喻。PM 若用旧范式的语言(比谁窗口大)去做新范式的决策(比谁信息流管理得好),就是 Kuhn 说的”用旧地图找新大陆”。这也呼应 0114认识论里”概念决定可见性”的主线。

PM 决策启示

面试:被问”long context 会不会取代 RAG”,别选边站。答:“这是把代际误读成替代。NoLiMa 显示 GPT-4o 有效约 8K,RAG 与长上下文是 Self-Route 互补,2026 主流是按查询路由。“——一句话证明你读过 benchmark 而非新闻标题。
选型:拿到任何”超大窗口”卖点,先问”有效窗口多少、context rot 实测曲线在哪”。把 RULER/NoLiMa 当成 context window 的”实际续航 vs 标称续航”对照表。
复现:动手时按第五代框架做信息流四去向决策——这条信息是该进 context(高频高信号)、外化 memory(跨会话状态)、走 RAG(大库低频)、还是 subagent 先消化(探索型噪音)。Rick 用 Claude Code 的一手体感:CLAUDE.md 里必须保留的内容不要赌它被压缩保留——按”它不会被保留”来设计,这正是第五代”假设上下文会腐化”的实操心法。

与已有节点的关系

横切衔接 G01 上下文管理代际谱系总图:G01 给谱系全景与”谁接替谁”的图;本节点 G02 是其逐格放大,补”推动力/瓶颈/被超越方式/2026 位置”四件套与年份接地。不复述 G01 的谱系图。
对照 c09 - RAG 架构(深化):c09 讲透了 RAG 的内部架构与 Lost in the Middle;本节点把 RAG 放回代际坐标,讲它”作为第二代如何被定位为第五代的信息流去向之一”——补的是时间维度与范式位置,不重讲 chunking/检索范式。
对照 m201 - Prompt Engineering 实战体系(纠偏):m201 是 prompt 的实战体系;本节点纠正”prompt engineering 是独立范式”的认知,把它定位为第五代的真子集。
对照 m206 - Agent 产品化：记忆机制与技术进展(对话):m206 拆 memory 的内部架构;本节点把 memory 升格为”第四代独立范式”并接上 benchmark 争议,与 m206 形成”内部机制 ↔ 代际定位”的对话。
对照 m209 - 推理成本控制手册(指针):代际选择即成本曲线选择,具体成本估算指向 m209,不重算。

关联节点

核心(必读)

G01 上下文管理代际谱系总图 — 本节点的母图
c09 - RAG 架构 — 第二代内部解剖
m206 - Agent 产品化：记忆机制与技术进展 — 第四代内部解剖
m201 - Prompt Engineering 实战体系 — 第一代实战底座
范式 — Kuhn 不可通约性,本节点框架根基

延伸(可选)

m203 - RAG 生产环境：Embedding 与文档解析
m204 - RAG 生产环境：Chunking 与范式演进
m205 - RAG 生产环境：索引运维与评估体系
m209 - 推理成本控制手册
幻觉 — 时效幻觉是 RAG 上位的推动力之一
Embedding — RAG 检索基底
KV Cache / Prompt Caching — 长上下文/压缩的成本机制
Attention — context rot 的架构根因(RoPE 衰减)
Agent — 第四/五代的时代推力
Claude Code — Rick 的第五代一手体感来源
0114认识论 — “概念决定可见性”主线
AI PM 知识图谱·总索引

修订日志

2026-06-07 R0:首稿。五代主线(prompt→RAG→long context→memory→context engineering),每代四件套+年份接地;判断主轴三坑;Kuhn 不可通约性跨域;回应 HN 换皮论与 Cognition 反多 agent;衔接 G01,与 c09/m201/m206/m209 升级对照。
2026-06-12 内审·arXiv 联网核实:清了 0 个(本节点无独立”待核实”arXiv 标记)/存疑 0 个;顺手订正第四代”推动力”段 2603.07670 作者署名”Du Pengfei”→“Pengfei Du”(WebFetch arxiv.org/abs/2603.07670 确认作者为 Pengfei Du,2026-03-08)。