R

_上下文工程系统化专题·总览

创建 2026-06-07 更新 2026-06-12 6 条双链 上下文工程 专题 AI 整理

上下文工程系统化专题 · 总览(MOC)

本页是 0417「上下文工程系统化」专题的中枢地图(MOC)。专题由 17 个原子节点 组成,分布在六个模块里,靠 双链 织成一张”横向(是什么)+纵向(从哪来)+解剖(由什么组成)+病理(现实怎么走样)+操作(自己怎么动手)+编织(怎么读)“的知识立方。读这页的目的:30 秒决定从哪个节点切入,并随时回到这张地图。

§0 序:那两堵我撞过的墙

第一堵墙:我曾以为”上下文窗口越大越好”。拿到 1M token 的模型,我把整个知识库、全部对话历史、所有相关文档一股脑塞进去,以为信息越全、模型越准。结果长任务跑到后半程质量肉眼下降、账单线性飙升、模型开始”自信地说错话”——后来才知道这有个名字叫 context rot,Chroma 测的 18 个前沿模型在所有输入长度增量上无一例外地退化(trychroma.com, 2025-07)。

第二堵墙:我曾以为”会写提示词就够了”。把 CLAUDE.md 写得越长越细,Claude Code 反而越容易跑偏——长 context 挤占了任务推理所需的窗口。我以为这是”提示词没写好”,其实是我把一个动态信息流系统当成了一段静态文本来管。

这两堵墙背后是同一个误判:把上下文当容器,而不是当稀缺资源;把工程对象当一句话,而不是当一条贯穿推理全程的信息流。 本专题的反共识立场就一句:token 越多,质量越差是常态而非例外;上下文工程的活,是做减法、做路由、做运维,不是做填充。 读完本专题,你应能在面试桌 / 选型会 / 复现台上,30 秒说清:长文档问答为什么不能直接”全塞进窗口”、一条信息该放 context 还是外化 memory 还是走 RAG、以及为什么”支持 1M 窗口”是营销而非能力。

§1 专题定位:为什么 Context Engineering 配独立建库

SHARED_CONTEXT §2 的四条选题判据逐条验证(满足前三条 ≥2 条且第四条为真):

判据是否满足证据
① 中心性(影响 PM ≥3 个决策链节点)直接决定 选型(M2:能否在致命耦合点干预)、成本(M4:四去向成本曲线差 1–3 个数量级)、复现(M5:先有预算仪表盘再谈优化)三链
② 误解深度(业界定义互相矛盾)2026 年招聘 JD 写”熟悉 context engineering”,但 ~80% 招聘方把它理解成”写好提示词”(见 A01 Context Engineering 概念史与升格 §5);HN 上”换皮论”与 Anthropic”新抽象层”论正面冲突
③ 速变性(24 个月内 ≥1 次格式塔切换)2024 long-context 普及→“RAG 已死”→2025 因 context rot”RAG 复活当 Context Engine”,一次完整的范式自我否定(见 G01 上下文管理代际谱系总图
④ 学了就能用读完立即获得”四去向路由”判断力与”标称窗口 ≠ 有效窗口”的选型尺子,面试/选型当场可用

升高了哪个抽象层:相对单维节点,本专题做了三层上提。

  • 相对 c09 - RAG 架构:把 RAG 从”一个检索方案”上提为”六层流水线里的 L2+部分 L3”,并揭出 c09 单独看不见的 L2↔L3 信息双重丢失耦合。
  • 相对 m206 - Agent 产品化:记忆机制与技术进展:把 memory 从”agent 的一个功能模块”上提为”信息流的一等去向 / 范式标志”,并补出 m206 看不见的”记忆↔组装污染共谋”。
  • 相对 m201 - Prompt Engineering 实战体系:论证 m201 讲的整个 prompt 体系,是 CE 这个更大对象的一个子集——你之前学的提示技巧没过时,但坐标系变了。

与 0411 Agent 专题的互补(分工 vs 信息流):两个专题正交。_Agent 系统化专题·总览 回答”一个 Agent 由哪些功能部件组成、怎么分工”;本专题回答”当 token 在 Agent 生命周期里流动时,经过哪几道闸门、哪几处接缝会致命互拖”。同一个”记忆”,在 S01 Agent 六层架构剖面 里是一个功能模块,在本专题 S01 Context 管理分层剖面 里被拆成”记忆写”和”记忆读”两个不同时刻的闸门——因为写时污染和读时污染是两种病。CE 是 Agent 化的必然副产物:没有 agent,CE 大概率不会作为独立概念出现。

§2 模块全景(六模块依赖矩阵)

flowchart TD
    subgraph M01["01 概念辨析 (横向·是什么)"]
        A01["A01 概念史与升格"]
        A02["A02 Context·Prompt·Memory·RAG 辨析"]
        A03["A03 Context Window 作为资源"]
        A04["A04 信息流四去向"]
        A05["A05 Memory 一等公民"]
        A06["A06 状态外化策略"]
    end
    subgraph M02["02 代际演化 (纵向·从哪来)"]
        G01["G01 代际谱系总图"]
        G02["G02 代际演化详解"]
    end
    subgraph M03["03 架构剖面 (解剖·由什么组成)"]
        S01["★S01 六层流水线"]
        S02["S02 信息流策略对照矩阵"]
        S03["S03 Memory & Context Ops"]
    end
    subgraph M04["04 实例剖解 (病理·怎么走样)"]
        E01["E01 Claude Code / CLAUDE.md"]
        E02["E02 长上下文 vs RAG"]
        E03["E03 Letta·MemGPT·mem0"]
    end
    subgraph M05["05 复现指南 (操作·怎么动手)"]
        R01["R01 最小·Compaction"]
        R02["R02 中型·Memory+RAG"]
        R03["R03 Sub-agent 隔离"]
    end
    M01 ==>|确立概念坐标系| M03
    M03 ==>|架构落到真实产品| M04
    M04 ==>|从病理到自己动手| M05
    M02 -.横切:提供时间维度.-> M01 & M03 & M04
    A04 -.路由判据贯穿.-> S02 & R02 & R03
    A05 -.记忆生命周期.-> S03 & E03 & R02
    A06 -.外化策略.-> R01 & E01
    style S01 fill:#ffe6cc

矩阵含义:依赖主链是 概念辨析 → 架构剖面 → 实例剖解 → 复现指南(先建坐标系,再解剖,再看真实产品怎么崩,最后自己搭)。代际演化横切所有模块,提供”为什么是现在”的时间轴。01 概念辨析内部还有一条暗线:A04 的”四去向”是全专题的决策中枢,它向下贯穿 S02(对照矩阵)、R02(混合配方)、R03(隔离模板);A05/A06 分别深挖去向二(memory)与状态外化,落到 S03、E03、R01。★S01 是旗舰节点(六层流水线 + 三处致命耦合),最厚,是架构剖面的脊椎。

§3 六模块逐一介绍

01 概念辨析(A01–A06,横向)——收录”是什么”的六张辨析。解决的核心问题:挡掉读者脑中的默认错误框架。何时读:第一次进专题、或在选型会上听到”context/prompt/memory/RAG”混用时。

02 代际演化(G01–G02,纵向)——收录”从哪来”的代际谱系。解决:拆穿”窗口越来越大”的线性进步幻觉。何时读:想理解 RAG/long-context/CE 的真实关系、或被问”RAG 和长上下文怎么选”时。

03 架构剖面(S01–S03,解剖学)——收录”由什么组成”的可替换分层堆栈。何时读:做架构设计、评估框架能否在关键接缝干预时。

  • S01 Context 管理分层剖面:★旗舰。六层流水线(Source→Retrieval→Compress/Rerank→Memory R/W→Assembly→Budget Governance)+ 每层接口契约 + 三处层间致命耦合。
  • S02 信息流策略对照矩阵:in-context / RAG / memory / sub-agent / compaction 五路径 × 时效/成本/可靠/容量/复杂度,一棵可操作决策树。
  • S03 Memory 与 Context Ops 全景:memory pipeline 当带 SLO 的生产管线运维(监控—评估—回滚—压缩—缓存),治新长出的腐化通路。

04 实例剖解(E01–E03,病理学)——收录真实产品/系统的 gap 分析与设计哲学分歧。何时读:想看 CE 在真实系统里怎么落地又怎么崩、或要给候选产品做尽调时。

05 复现指南(R01–R03,操作手册)——收录最小可运行→中型生产→进阶模板。何时读:要亲手搭一条流水线、或想把判断变成可观测代码时。

06 阅读指南(编织)——阅读指南(本专题)给三路径入口 + 自测题 + 反方训练;本 _总览 是 MOC 中枢。

§4 与现有节点关系:升级对照表

本专题对既有 c/m 节点做的不是复述,而是升级(补缺 / 纠偏 / 对话 / 深化 / 抽象上提五选一)。⚠️ 以下”对方尚缺”项是给后续集成方的互引线索,不在本专题正文里替对方改稿。

旧节点本专题对照节点升级类型对照要点(含旧节点尚缺、待集成方互引)
c09 - RAG 架构S01 Context 管理分层剖面A04 信息流决策框架·四去向E02 长上下文模型 vs RAG 剖解抽象上提 + 对话把 RAG 重定位为六层里的 L2+部分 L3,揭 L2↔L3 耦合。c09 尚缺:Contextual Retrieval(-49%/-67%)、Late Chunking、CRAG/Adaptive/Agentic RAG 演进树、chunk×Top-K 参数层——由 m204 补,互引而非搬运。c09 的 Lost in the Middle 已被 m201 引用,链接已存在勿改
m203 - RAG 生产环境:Embedding 与文档解析S01 Context 管理分层剖面编织(定位 L1 解析)把解析定位到统一流水线 L1,补其单看时看不见的跨层耦合
m204 - RAG 生产环境:Chunking 与范式演进S01 Context 管理分层剖面A04 信息流决策框架·四去向编织(定位 L1 chunking)m204 尚缺:未引 c09 评估体系(Hit Rate/MRR/Faithfulness)、Reranker 缺席——可在”Naive RAG 问题”段加一句指向 c09 §9.4,由集成方处理
m205 - RAG 生产环境:索引运维与评估体系S03 Memory 与 Context Ops 全景S01 Context 管理分层剖面深化(L2/L6 → Memory Ops)把索引腐化逻辑延伸到 memory layer 的新腐化通路,Ops 闭环升级
m206 - Agent 产品化:记忆机制与技术进展A05 Memory Layer 作为一等公民S01 Context 管理分层剖面E03 Agent Memory 产品剖解·Letta MemGPT mem0纠偏 + 补缺memory 不是 agent 附属,是 CE 范式一等公民;把”记忆”拆成读/写两闸门,补”记忆↔组装污染共谋”。m206 向量库条目旁可加 c09 - RAG 架构 §9.3 精确指针(由集成方处理);m206 已引 c13 - 幻觉的不可消除性m209 - 推理成本控制手册,勿重复
m201 - Prompt Engineering 实战体系A01 Context Engineering 概念史与升格S01 Context 管理分层剖面纠偏(降为子集)论证 m201 整套体系是 CE 的子集;prompt 压缩(LLMLingua)只是”压缩后放 context”一支,system prompt 四原则只是 L5 组装的叶子。m201 的 RAG 场景压缩可互引 m204 Contextual Retrieval(由集成方处理)
m209 - 推理成本控制手册S01 Context 管理分层剖面A04 信息流决策框架·四去向S02 信息流策略对照矩阵对话 + 补缺L6 预算治理不只省钱,更是质量守门人(token 越多质量越差);四去向各有不同成本曲线,为 m209 提供”成本从哪来”的信息流视角
S01 Agent 六层架构剖面(0411)S01 Context 管理分层剖面正交互补功能分工 vs 信息流物理路径;同一”记忆”在两专题里是模块 vs 两个闸门
A08 MCP 与 A2A 协议族E01 Coding Agent·Claude Code & Cursor(0411)E01 Claude Code 与 CLAUDE.md 的 Context 管理剖解对话0411 从”Agent 分工”剖 Claude Code,本专题从”信息流管理”剖同一对象,互为侧面

§5 三条阅读起点(详表见 阅读指南

  1. 求职速通(面试前 1 小时)A01 Context Engineering 概念史与升格A04 信息流决策框架·四去向A03 Context Window 作为资源·非越大越好 → ★S01 Context 管理分层剖面(只读 §6 三处致命耦合 + §10 决策启示)。目标:拿到”CE 是子集升格""四去向路由""标称≠有效""接缝处崩”四把面试钥匙。
  2. 决策链(选型会前)A02 Context Prompt Memory RAG 辨析S02 信息流策略对照矩阵E02 长上下文模型 vs RAG 剖解E03 Agent Memory 产品剖解·Letta MemGPT mem0。目标:能逐层给候选框架打分、能用成本/延迟/可验证性当场打回单选题式提问。
  3. 紧迫度(要立刻搭东西)A06 状态外化策略R01 最小可运行·Context CompactionR02 中型·Memory Layer + RAG 混合R03 Sub-agent Context Isolation 模板。目标:从最小 compaction loop 起步,按需加 memory+RAG、再加 subagent 隔离;先搭预算仪表盘再谈优化。

§6 跨域思想资源调度(不留空 invocation)

每一项都在对应节点的”跨域呼应”段具体改变了一个技术判断,不是装饰性点名。其中 Bateson、控制论 requisite variety、维特根斯坦私人语言/规则遵循是 Rick 此前在 0411 未集中调度的对手框架,用来逼问本专题盲点(破 echo chamber)。

跨域资源调度位置它改变了什么判断
Herbert Simon · 有限理性 / 注意力稀缺(“a wealth of information creates a poverty of attention”, 1971)A04 信息流决策框架·四去向把”context 越大越好”重构为注意力经济的配置问题:稀缺的不是信息而是注意力,多塞=稀释=负收益,四去向就是注意力预算的分配机制
认知负荷 / 工作记忆有限(OS RAM 隐喻 + extended mind 的载体)A03 Context Window 作为资源·非越大越好A06 状态外化策略把 context window 类比为有限工作记忆,解释”标称≠有效”与”状态必须外化”——外化即认知卸载(extended mind / Clark & Chalmers 意义上把记忆放到环境里)
信息架构 / Bateson 的”差异”(“a difference that makes a difference”)A03 Context Window 作为资源·非越大越好论证”信息有负价值”:不构成差异的 token 不是中性的,它稀释注意力、是负信息——给”做减法”提供信息论根据
Extended Mind(认知的环境外置)A06 状态外化策略A05 Memory Layer 作为一等公民memory/CLAUDE.md 不是”附加存储”,是 agent 认知系统的组成部分;外化状态=把认知边界扩到环境,但有限度(默会维度无法外化,接 Polanyi)
Michael Polanyi · 默会知识(“we know more than we can tell”)S01 Context 管理分层剖面 §9、A06 状态外化策略S02 信息流策略对照矩阵改写”压缩=进步”:显性化必然丢默会维度,故 Observation Masking(留指针)常胜 LLM Summarization(强行说清)——解释 JetBrains 那 15% runtime 退化
Thomas Kuhn · 不可通约性 + 危机双判据A01 Context Engineering 概念史与升格 §7、G01 上下文管理代际谱系总图G02 上下文管理代际演化详解裁决 CE 是真升格还是换皮:不是新答案,是旧框架连问题都提不出来(context rot 在 prompt 框架里无法表述);并要求每代有”危机”才算换代,挡掉营销叙事
维特根斯坦 · 语言游戏 / 规则遵循 / 私人语言(破 echo chamber 对手框架)A02 Context Prompt Memory RAG 辨析A05 Memory Layer 作为一等公民E01 Claude Code 与 CLAUDE.md 的 Context 管理剖解E03 Agent Memory 产品剖解·Letta MemGPT mem0R01 最小可运行·Context Compaction四词混用是范畴错误(语言游戏);CLAUDE.md”读了不照做”是规则遵循悖论;memory 可验证性危机是私人语言论证——逼问”agent 的记忆能否被外部验证”
控制论 · requisite variety(Ashby 必要多样性)(破 echo chamber 对手框架)S03 Memory 与 Context Ops 全景系统腐化是必然:控制器(Ops 闭环)的多样性必须 ≥ 被控系统(memory/context 漂移)的多样性,否则失控——给”为什么必须建 Ops 而非交付一次性功能”提供控制论证明

§7 验收档案

评议流程:本专题照搬 0411 的工程化多轮批判性同行评议(SHARED_CONTEXT §10):Round 0 并行起草(每 Agent 负责一模块/数节点)→ Round N 批评 Agent 按 S/A/B/C/D/E 六维 + 事实接地逐节点找茬打分 → Round N+1 写作 Agent 按 issue 单修订并追加修订日志 → 迭代至连续一轮无重大 issue → 独立 grounding 校验 pass(逐条抽取事实声明判定”已接地/需接地/疑似编造”)→ 终轮综合(本 _总览 + README + 跨节点双链编织 + 三清单)。改稿全程留档于 _topic_factory/0417-context/,作为 Rick 的元学习材料。

SABCD 六维自评(诚实综合)

维度含义出版线本专题自评依据
S 结构六模块互补、依赖清晰、入口可导航≥88.2六模块齐备;A04 决策中枢 + S01 旗舰脊椎 + 三阅读路径;§2 Mermaid 依赖矩阵显式画出横切与暗线
A 判断密度每节有反共识、可证伪、带数字的判断≥88.0”token 越多质量越差”为全专题反共识主轴;Lost-in-Middle U 形、NoLiMa 8K、JetBrains -52%、Mem0 LOCOMO、Self-Route -65% 等硬数字密集
B 边界含量显式标注判断在哪失效、赌的是什么≥7.57.8A01 failure scenario(单轮短上下文场景 CE 趋零)、A04/G01 对隔离价值的可证伪赌注(2027 抗 rot 架构则推翻)
C 认识论自觉区分事实/推测/赌注、引用可追溯≥88.0第三方成本估算显式标”非受控实验仅数量级参考”;复合计算标 first-order approximation;硬事实带论文名+作者+年份
D 可演进性双链密度、修订日志、改稿档案≥8.58.0每节点 §修订日志齐备、双链密度达标、改稿档案留痕;扣分项:跨专题深度互链可再加(0411 侧尚未回链本专题)
E 对手拷问能力对反方立场给出带证据回应≥78.1Cognition《Don’t Build Multi-Agents》、HN 换皮论、LeCun 式”长上下文终结 RAG”三大反方均”接受+边界”接入,非反驳

综合自评 ≈ 8.0 / 10(出版线 7.8,达标)。对手立场维 ≈ 8.1(≥8 达标)。诚实扣分点:D 维的跨专题双向互链、以及 E03 的 benchmark 互撕细节可在 R2 轮再加固。

① 业界对手立场显式回应清单(≥8 处)

  1. Cognition《Don’t Build Multi-Agents》“share full agent traces”反隔离 → A04 §对手、R03 开篇、S01 §8、G01 §7
  2. Hacker News / 部分 OpenAI 社区”CE = RAG+memory 换皮论” → A01 §6、G01 §7、S01 §8
  3. “长上下文杀死 RAG”派(2024 唱衰 RAG) → E02、G01 §3 反例
  4. Simon Willison”术语价值在逃离污名化而非新技术”(为换皮论辩护的中间立场) → A01 §6
  5. LangChain”Write/Select/Compress/Isolate 四操作”作为竞争框架 → S01 §0 挡掉、A04 §0
  6. MemGPT”OS 内存类比=透明扩容”的隐含假设 → S01 §0 挡掉(指出搬运有损非透明)
  7. Letta vs mem0 公开 benchmark 互撕 → E03(双方立场都接入,不站队)
  8. Vellum/Collabnix”隔离可用 scoped prompts 弥补”vs Cognition”根因是模型可靠性” → A04 §对手、R03

② Rick 未读对手框架引入(破 echo chamber,≥2 个)

  • Bateson 的”差异”信息论 → A03(信息可为负价值)
  • 控制论 requisite variety / Ashby → S03(系统腐化的控制论必然性)
  • 维特根斯坦 私人语言论证 → E03(记忆可验证性危机)

③ failure scenario 显式标注清单(≥5 处)

  1. A01:单轮、短上下文、无 agent 的简单调用,CE 是过度工程,价值趋零
  2. A04 / G01:若 2027 出现真正抗 context rot 的架构(RoPE 变体规模化),subagent 隔离价值下降、CE 退化为边缘技巧
  3. A03:若有效上下文逼近标称窗口,“主动管理窗口”工程价值大幅缩水
  4. S01 致命耦合 #3:预算层缺失下 Demo 跑得好 → 规模化账单爆炸(结论在”未规模化”场景看不出失效)
  5. A04 错误四 / R03:需要全局一致性的任务强行拆 subagent → 并行决策组合失败(Super Mario 反例)
  6. E02:成本/延迟 SLO 极宽松且语料小的场景,长上下文直接胜出,RAG 反成过度工程

④ confirmation-bias 砍除清单(≥5 处)

  1. 早期反复引”压缩=进步”作正面案例 → 补反例:LLM Summarization 使 runtime +15%、遮盖停止信号(JetBrains),Polanyi 默会税
  2. 早期把”RAG 是落后一代”当默认 → 补反例:RAG 在第五代复活当 Context Engine(RAGFlow 2025)
  3. 早期把”memory 越多越懂用户”当正面 → 补反例:写污染→读信任的污染共谋正反馈幻觉回路(S01 #2)
  4. 早期把”subagent 隔离=省 token=好”当默认 → 补反例:Cognition 上下文割裂/决策冲突
  5. 早期把”1M 窗口”当能力卖点 → 补反例:NoLiMa 测 GPT-4o 有效约 8K、Claude 3.5 Sonnet 64K 跌至 29.8%
  6. 早期把”代际是进步阶梯”当叙事 → 补反例:每代制造的新问题恰是下代诱因(问题搬家而非消灭)

§8 关联节点(双链密度 ≥20)

专题内 17 节点(全收录)

升级对照的既有 c/m 节点

跨专题(0411 Agent)

原子概念卡

跨域 / 全局