G02 使用代际演化详解

本节点要解决的问题是：G01 使用代际谱系总图给了一屏看全的”Rick 作为极端 power user，AI 使用模式如何逐代演化”的接力链，但自我民族志真正要钉死的是更细的一题——“每一代使用模式，它的典型工作流长什么样？要跨过什么能力门槛才进得去？它卡在哪个瓶颈上、又是被下一代的什么具体动作掀翻的？” 视角是「逐代工作流解剖」——对”提示工程”→“记忆与上下文治理”→“Skill 工程化”→“多 Agent 编排 / 知识工厂”每一代，展开它的典型工作流、能力门槛、瓶颈、被下代超越的具体接口、可观察证据 + 〔Rick 待填〕的内省缺口五件套。G01 是地图，G02 是给地图上每一段路标注路况、限速与”我当时为什么过不去这道坎”。

[!warning] 接地纪律（本节点的生命线）本专题的研究对象是 Rick 本人，独一无二、无外部竞品可比对。可观察的（skill 设计史、vault 结构、memory 治理记录、本次”专题工厂”0412–0423 的运作）如实分析、强接地到对话存档与文件时间戳；凡需要 Rick 内省才能回答的（信任校准、注意力分配、迁移时的主观体感、为什么选 A 不选 B 的真实动机），一律留 〔Rick 待填〕 结构化模板与引导问题，绝不替他编造感受/决策。这正是分析式自我民族志（Anderson 2006）“narrative visibility + analytic reflexivity”对诚实的要求：研究者可见，但不得把推断伪装成自陈。

§0 为什么用”逐代工作流解剖”而不是”再画一遍谱系”

G01 已经把 Rick 的 AI 使用排成一条接力链，并破了”一代更比一代强”的线性进步史——那是 G01 的命门。本节点不重复那条链，要补 G01 故意留白的一格：每一代使用模式都有自己的工作流形态、入场门槛与卡死点，而自我民族志的价值恰恰在于把这些”代内细节”——尤其是”我当时卡在哪、怎么跨过去的”——一手记录下来。

为什么这个视角值得单开一节？因为 G01 防的是跨代误判（把后一代当前一代的纯粹超越、把使用能力线性外推成”越用越强”），G02 防的是另一类——代内归因误判：把”我现在能做多 Agent 编排”当成”我天生就是 power user”，从而丢失”每一代之间都有一道具体的、可命名的能力门槛，跨过去靠的是具体的认知转型而非天赋”这一自我民族志的核心洞察。前者是地图问题，后者是路况问题。

[!note] 一个贯穿全节的工具：每代的”门槛标签” 下文每一代都给一个能力门槛标签：🔑工具熟练 / 🧠元认知 / 🏗️系统设计 / 🎛️编排治理。这个标签不是”用得多熟”，而是**“跨进这一代需要发生的认知转型类型”**——从”会用工具”到”会监控自己怎么用工具”，从”会监控”到”会把使用工程化成可复用系统”，从”会建系统”到”会编排和治理一群系统”。每跨一级，门槛的性质都变了，这正是 G01 “代际不可通约”在个人成长史上的回声：不能用”提示写得好不好”度量”系统设计得好不好”，因为它们考的不是一回事。

[!warning] 方法论自觉：N=1 的双刃本节点是单被试（N=1）的自我民族志，先天无法证明”Rick 的代际演化是 power user 的普遍路径”。它能做的是厚描述（thick description）单一极端个案的内部机理，供后来者比对，而非给出可推广的成长曲线。凡涉及”一般 power user 也会这样”的断言，本节点一律降级为”在 Rick 这一个案上观察到”——这条边界在 §6、§8 反复出现，是本专题最大的 failure scenario（见 §8）。

§1 第1代 · 提示工程时代——🔑“把需求说清楚”的单轮对话

维度	内容
典型工作流	单轮或少数几轮对话：抛出需求 → 看输出 → 改措辞重试。工作流的全部杠杆在”怎么把话说清楚”上——发散、收敛、明确指令、机制核查这套节奏的雏形，在 trip 套件设计早期（2026-03-31 ～ 04-01，〔私人记录〕）已可见，但此时它还附着在单次任务里，没有被抽象成可复用的”提示资产”
能力门槛	🔑工具熟练：知道模型能干什么、不能干什么；能把模糊意图翻译成模型听得懂的指令。门槛是”语言精度”——这是 power user 的入门税，但远非天花板
瓶颈	提示是一次性的、不可复用的、藏在对话历史里的。同一类任务每次都要重新把上下文喂进去、重新调措辞；好的提示无法沉淀、无法版本化、无法跨会话迁移。Rick 的 intellectual-lens 迭代（intellectual-lens skill 通过圣周案例的迭代，2026-04-05）暴露了这个瓶颈的解法雏形——用”竞品输出对照”定位差距在提示的哪一步、做局部修补——但这套手艺此时还是默会的，存在 Rick 脑子里，没有外化成制品
被下代超越的具体接口	当”好提示”开始被反复需要、且 Rick 意识到”记忆/上下文”可以承载跨会话的偏好与约束时，第1代就被掀翻了——提示从”每次重说”变成”沉淀进记忆/Skill”。接口是持久化：让有价值的提示资产不再随对话历史蒸发
可观察证据 / 内省缺口	可观察：trip 套件早期对话、intellectual-lens 的”竞品输出对照”迭代法已归档。〔Rick 待填〕：见下

详解：提示工程不是”被淘汰的旧阶段”，而是后面所有代际的度量原点——Skill 的本质是”把反复用的提示工程化封装”，多 Agent 编排的每个 agent 内核仍是一段提示。它没有退场，它沉到了水面下成为地板。Rick 的 intellectual-lens 案例尤其能说明这一点：那套”拿另一个 AI 的分析输出当参照系、定位差距来源在 prompt 的哪一步、局部修补”的方法，本质是把提示工程做成了一个可诊断的工序——这已经是第1代里最高阶的玩法，但它还没被外化成 Skill，所以仍属第1代。

反例（破”提示工程过时、power user 都该谈 Agent”）：把”我会写复杂提示”当成入门即可丢弃的旧技能，是误读。后几代的能力全建在提示精度之上——Skill 写得好不好，取决于封装进去的提示对不对；多 Agent 编排出不出活，取决于每个 subagent 的提示约束准不准。提示工程是地板也是天花板的一部分，不是落后选项。 这接 Skill 系统的本质：Skill 是”procedural knowledge 的文档化封装”，而被封装的核心正是提示工程的产物——G02 取其代际时点含义：提示工程的生命周期不是”结束”，是”从台前的手艺沉为每一代的内核”。

[!note] 〔Rick 待填：第1代的入场体感〕以下需要你的一手内省，可观察记录里没有，请勿让任何 agent 替你填：

你最早把 AI 当”能认真协作的对象”而非”搜索引擎升级版”，是哪个具体任务/时刻让你切换了心智模型？

“竞品输出对照”这套提示诊断法，是有意设计的方法、还是某次撞出来后才意识到它可复用？

第1代时，你判断”一次输出够不够好”的内部标准是什么？什么时候你会选择重试、什么时候选择接受将就？

§2 第2代 · 记忆与上下文治理时代——🧠“管住 AI 记什么”的元认知转向

维度	内容
典型工作流	不再只关心”这一轮说什么”，而是主动管理跨会话的状态：哪些偏好该让 AI 记住、哪些该外移、哪些记错了要反向删除。工作流从”对着输出调”升级为”对着 AI 的记忆/上下文配置调”——一个元层（meta-level）动作
能力门槛	🧠元认知：能跳出”任务执行”去监控”AI 怎么形成对我的模型、这个模型在哪过拟合了”。这是从”用工具”到”监控自己怎么用工具、并干预工具对我的建模”的认知转型——门槛陡然抬高，多数用户终生不跨这一步
瓶颈	记忆是双刃的：它让 AI 更懂你，也让 AI 对你的偏好过拟合、丢失泛化能力。Rick 2026-03-23（〔私人记录〕）主动用 ML 框架（过拟合/泛化）做了两轮元层干预——第一轮诊断过拟合、要求解耦”偏好了解”与”审美能力”；第二轮防止矫枉过正成平均化、要求保留高水平审美基底（“泛化 ≠ 平均化”）。瓶颈是：记忆治理没有现成方法论，全靠 Rick 自己发明操作语和判别标准（详见 AI 记忆过拟合与泛化能力）
被下代超越的具体接口	当 Rick 从”管单条记忆”升级为”设计记忆的结构原则”——blocklist→allowlist 转型（2026-05-13，Claude routines 调研与 memory allowlist 设计）——第2代就开始向第3代溢出。接口是从”调参”到”立规”：不再逐条管记忆，而是定一条”memory 只保留索引头、详细内容外移到 Obsidian”的结构规则，并要求 AI 把”先 dump 能力矩阵、再在矩阵内构思方案”写进记忆。这已经是把”治理”本身工程化，是第3代的前夜
可观察证据 / 内省缺口	可观察：两轮过拟合干预文本、blocklist→allowlist 转型、反向删除旧记忆条目的行为均已归档。〔Rick 待填〕：见下

详解：第2代是 Rick 使用史上第一次明确的”元认知转向”——他不再只问”AI 这次答得好不好”，而是问”AI 对我的建模是不是过拟合了""我该让它记什么、不记什么”。用 ML 术语（过拟合/泛化）做 prompt 工程，是一个极强的信号：他把对 AI 的干预从”内容层”提到了”AI 如何学习我”的元层。blocklist→allowlist 的转型尤其关键——从”列举不要什么”（防御性、无穷尽）切换到”只保留索引头、详情外移”（建设性、有界），这是一次认识论而非技巧的升级。

G02 要补 G01 的细节是：第2代的”记忆”红利和瓶颈绑在同一件事上——AI 记得越多越懂你，但也越容易把你的当下偏好固化成审美天花板。Rick 的两轮干预正是在这条钢丝上走：既要 AI 懂他（保留高水平审美基底），又要它别把”懂”退化成”重复他过去的口味”（防过拟合），还要防止矫正过头成”谁的口味都不像”的平均化。这三者的张力没有现成解，是 Rick 一个案上的一手发明。

反例（破”记忆越多越好、让 AI 尽量记住一切”）：把”让 AI 记住我所有偏好”当成 power user 的目标，会撞上过拟合墙——AI 会把你某个阶段的口味当成永恒标准，输出越来越”像你过去”、越来越缺新意，且这种退化隐蔽到你不主动诊断就发现不了。Rick 之所以能发现，是因为他有 ML 的过拟合框架当探针。记忆治理的核心不是”记多少”,是”记什么 + 防过拟合 + 不退化成平均”——这是第2代的命门，也是多数用户根本意识不到的盲区。 这接 Polanyi 默会知识与提示工程的认识论张力：Rick 试图把”什么是好审美”这种高度默会的判断，通过记忆治理部分地传递给 AI——而 Polanyi 的洞察恰恰是”我们知道的比我们能说出来的多”，所以这种传递必然有损耗，记忆治理的过拟合/平均化困境，本质是默会知识外化时的失真。

[!note] 〔Rick 待填：记忆治理的信任校准〕以下涉及你的内省，可观察记录无法回答：

你做 blocklist→allowlist 转型时，触发点是什么？是某次 AI 用错了记忆、还是读到某个外部概念（routines/allowlist）后回头审视自己的做法？

两轮过拟合干预之间，你怎么判断”第一轮矫正过头了、有平均化风险”？是看到了具体的劣化输出，还是预判性地踩刹车？

你对 AI 记忆的信任校准是怎样的——哪些类型的偏好你放心让它记，哪些你坚持外移到 vault 自己管？这条线背后的判据是什么？

§3 第3代 · Skill 工程化时代——🏗️”把使用沉淀成可复用系统”的系统设计转向

维度	内容
典型工作流	不再每次重写提示，而是把反复用的协作模式封装成 Skill：设计 → over-design → 被自己拉回 → 收敛 → 用元 Skill（skill-creator）重写。典型代表是 trip 套件五件家族（trip-discover / trip-evaluate / trip-macro / trip-structure / trip-qa）的系统设计（2026-03-31～04-01）与 trip-structure skill 的 over-design→收敛迭代（2026-04-03，〔私人记录〕）
能力门槛	🏗️系统设计：能把一次性的使用抽象成”可触发、可组合、可版本化、可被别的 Skill 调用”的制品；能区分”哪些该是 Skill、哪些该留在对话里”。门槛是抽象能力 + 抗 over-design 的克制——能建系统的人多，能在建系统时主动收敛、不把它做臃肿的人少
瓶颈	Skill 工程化的天然引力是 over-engineering：能封装就想多封装，结果系统越来越重、维护成本越来越高、真实使用频率反而下降。trip-structure 的迭代轨迹（over-design → Rick 拉回 → skill-creator 重写收敛）正是这个瓶颈的现场。瓶颈是：系统设计能力一旦上手，最大的敌人不是”建不出来”，是”建太多”（详见旅行规划 Skill 套件系统设计）
被下代超越的具体接口	当 Skill 多到需要编排（谁先跑、谁调谁、哪些要独立 context 隔离），单个 Skill 工程化就升级为多 Agent / 系统架构问题。接口是从”建单个系统”到”编排一组系统”——2026-05-17～05-21 的 vault 协作架构演化（单 agent → 8 → 11 → 12 角色 v1.3 → 塌缩为 5 sub-agent + 6 skill v1.4，详见 PKM 设计哲学与演化史）就是这个跨越
可观察证据 / 内省缺口	可观察：trip 套件五 Skill、intellectual-lens、trip-structure over-design→收敛轨迹、skill-creator 元 Skill 的使用均已归档。〔Rick 待填〕：见下

详解：第3代是 Rick 从”AI 使用者”变成”AI 协作系统设计者”的分水岭。Skill 系统的本质把 Skill 定义为”procedural knowledge 的文档化封装”——这个定义本身就是 Rick 系统设计转向的产物：他不再把”怎么用 AI”当成临场发挥，而是当成可以被外化、版本化、组合的工程对象。trip 套件的”发散-收敛-明确指令-机制核查”四步节奏，是把第1代的单次提示手艺，升格成了一套可复用的设计方法论。

G02 要补 G01 的细节是：第3代的红利（可复用、可组合、可沉淀团队/个人 know-how）和瓶颈（over-engineering）是同一种能力的两面。能把使用抽象成系统的人，几乎必然有把系统做臃肿的引力——因为抽象本身令人愉悦。trip-structure 的迭代史是这个张力的标本：Rick 先 over-design（系统设计能力的正面），再自己拉回、用 skill-creator 重写收敛（对抗 over-design 的克制）。这一来一回，正是第3代最有价值的一手数据——它记录了”系统设计能力”和”抗过度设计的判断力”是两种独立的能力，后者比前者稀缺。

反例（破”会建 Skill = 高阶 power user”）：把”我设计了五个 Skill”当成能力证明，可能恰恰是 over-engineering 的症状。真正的判断力不在”建了几个”，在”砍掉了几个该砍的、把几个该合并的合并了”。Rick 的 trip-structure 收敛、以及后来 v1.3→v1.4 的 agent 塌缩（12→5+6），证明能力的高阶标志是减法而非加法。Skill 工程化的命门是抗 over-design，不是会封装——这和编程工具专题里”系统设计能力 ≠ 抗过度设计的判断力是两种能力”是同构的洞察（参见 G02 编程工具代际演化详解对 AI 原生 IDE”红利与瓶颈绑在 fork 这一件事上”的分析）。

[!note] 〔Rick 待填：Skill 设计的克制从哪来〕以下需要你的内省：

trip-structure 的 over-design，你是在设计中途就察觉、还是做完看了输出格式才发现臃肿？让你”拉回”的具体信号是什么？

你判断”这个该是 Skill、那个该留在对话里”的内部判据是什么？（频率？复杂度？可组合性？还是别的？）

五个 trip Skill 里，旅行中真正高频触发的是哪几个？有没有设计了但实际很少用、甚至该删的？（这正是 G01 brief 里”被下代超越/被弃用”的代内版本）

§4 第4代 · 多 Agent 编排 / 知识工厂时代——🎛️”编排与治理一群系统”的治理转向

维度	内容
典型工作流	不再设计单个 Skill，而是编排一组 agent + skill 协同，并为它们立治理规约。两个标本：(a) vault 协作架构 v1.4——用 A/B/C/D 框架判别”只有真正需要独立 context 隔离的保留为 agent，其余降为 skill”，从 12 角色塌缩到 5 sub-agent + 6 skill；(b) 本次”专题工厂”（0412–0423）——一条 write-first 多 agent 流水线：旅途现场触发 AI 对话 → 存档 → SABCD 评级 → Phase 1 批量 pipeline（Enricher/Integrator）处理入库 → 升格为笔记节点
能力门槛	🎛️编排治理：能设计”谁该是独立 agent、谁降为 skill、AI 写权限怎么隔离、产物按什么触发条件分层”的规则系统。门槛是架构判断 + 治理设计——不只是”让多个 agent 跑起来”，而是”在它们之间立规矩、防污染、可审计”
瓶颈	编排的成本不是线性的：agent 越多，协调、审阅、归因的认知开销越陡。本次工厂的审阅环节正撞上 0418 审阅瓶颈专题的核心命题——当 AI 产能趋零，瓶颈反转为人类审阅带宽。`99Archive/_README.md` 记录的 Phase 1 评级分布（S:14 / A:103 / B:194 / C:182，约 493 条）意味着 Rick 要对几百条产物做价值判断——审阅瓶颈在多 agent 下被放大，这正是 G02 审阅关系代际演化详解所说”审阅负载比被推过 1”的个人版现场
被下代超越的具体接口	暂无明确”第5代”——多 Agent 编排 / 知识工厂是 Rick 当前使用史的现役末端。若未来出现新的协作范式（如更自治的 agent 市场、跨项目记忆共享成熟），会接力。当前该做的是沉淀这一代的最佳实践与失败模式，而非急着宣告下一代
可观察证据 / 内省缺口	可观察：v1.3→v1.4 塌缩的 A/B/C/D 判别框架、CLAUDE.md 六原则（含三步 ingestion 沙盒、三层产物体系）、本次工厂 0412–0423 约 40+ 条对话存档与 40+ 升格节点、SABCD 评级分布均已归档/可查。〔Rick 待填〕：见下

详解：第4代是 Rick 从”系统设计者”变成”系统治理者”的转向。两个标本最能说明问题：

标本一 · v1.3→v1.4 塌缩是 Rick 对自己的 AI 工具做 over-design 检验的直接证据——这和第3代 trip-structure 的收敛是同一种克制能力，但作用在更高的抽象层（不是收敛一个 Skill，是收敛整个 agent 架构）。A/B/C/D 判别框架（只有真正需要独立 context 隔离的保留为 agent）是一条可复用的治理判据，把”该几个 agent”从审美问题变成了工程问题。这正是 G01 brief 强调的”被下代超越”的反面：第4代不是简单”比第3代更强”，它引入了第3代没有的新失效模式——编排的协调成本与审阅瓶颈。

标本二 · 本次”专题工厂”（0412–0423）是一个真实可观察的 meta-case——这套正在运行的多 agent 知识生产流水线，本身就是本专题的研究对象之一（这是自我民族志最罕见的机会：研究方法和研究对象同构）。它的可观察结构包括：旅途现场触发 AI 对话（〔私人记录〕等约 40+ 条存档）→ SABCD 评级分类 → 批量 pipeline 处理 → 升格为散落在美国史与旅行两个分类的约 40+ 节点（如 NMAAHC 深度导览与 AI 表达元批评、VOC 博物馆评级与同构失败诊断）。“write-first”的最可能含义是：先产出原始对话（write first）→ 后续批量处理入库，而非逐条手工——这把审阅从”实时”挪到了”批量回看”，是一个明确的工作流设计选择。

G02 要补 G01 的细节是：第4代的治理成本没有一张统一账单，但它最尖锐地体现在审阅瓶颈上。CLAUDE.md 原则四的”三步 ingestion”（AI 产出先入 _ai_review/ 沙盒、Rick 审阅后才 move）是 Rick 亲手设计的”AI 写权限隔离”——这是工程化的防污染机制，但它把 Rick 锁在了”必审”的位置上。当 Phase 1 一次产出 493 条带评级的产物，三步 ingestion 的沙盒就成了一个堆满待审材料的关口。这正是第4代的命门：你越是把 AI 产能工程化放大，你自己的审阅带宽就越是唯一的瓶颈——这是 Rick 的 review 行为成为 0418 审阅瓶颈专题一手数据的结构性原因。

反例（破”多 Agent / 知识工厂必然提效”）：把”我有一条多 agent 流水线”当成纯粹的产能胜利，会忽略它把成本从”生产”转移到了”审阅与治理”。本次工厂产出几百条材料，但 Rick 对它们的价值判断（哪条 S、哪条 C）是不可外包的瓶颈；三步 ingestion 防了污染，却也制造了审阅积压。多 Agent 编排的红利在”可干净拆解、可批量处理的任务”上成立，但它把瓶颈精确地推到了人类审阅带宽上——这和编程工具专题 G02 编程工具代际演化详解 §5”多 Agent 红利高度任务依赖、协调成本陡增”是同一类认识论纪律，只是这里的协调成本主要表现为审阅成本。

[!note] 〔Rick 待填：编排与审阅的一手体感〕以下是本专题最关键、最不可替代的内省缺口——可观察记录里完全没有，任何 agent 都不得替你编造：

v1.4 塌缩的真实驱动：是认知疲劳（12 个 agent 管不过来）、架构美感（觉得它不优雅）、还是纯效率？你自己的感受是哪一个、或哪几个的混合？

SABCD 评级的内部标准：14 条 S 和 182 条 C 之间，你的价值判断依据是什么？评级时哪里最容易犹豫、边界最模糊？（这直接喂给 0418 审阅瓶颈专题）

审阅积压时的真实行为：当 _ai_review/ 沙盒堆满待审材料，你是逐条认真审、还是会进入某种”批量略读”模式？三步 ingestion 在实际操作中制造了多少流程阻力？哪条原则最容易被你自己跳过？

write-first 的认知差异：先产出再批量处理 vs 实时处理，你感受到的决策感/掌控感有什么不同？批量回看时，你会不会对自己几天前的现场对话产生”陌生感”或”重评”？

AI 作为田野扩展器：旅途中现场提问-分析（博物馆导览、历史问题），你是否有意识地把 AI 当田野观察的扩展器？它改变了旅行体验的深度或方向感吗？

§5 一张表：四代逐代对照（典型工作流 → 门槛 → 瓶颈 → 被超越接口）

代际	门槛标签	典型工作流	能力门槛（认知转型）	核心瓶颈	被下代超越的接口
G1 提示工程	🔑工具熟练	单/少轮对话，调措辞重试	语言精度：意图→指令	提示一次性、不可复用、藏在历史里	持久化（沉淀进记忆/Skill）
G2 记忆与上下文治理	🧠元认知	管 AI 记什么、防过拟合、反向删记忆	元认知：监控并干预 AI 对我的建模	记忆双刃——更懂你也更易过拟合/平均化	从调参到立规（结构原则）
G3 Skill 工程化	🏗️系统设计	封装可复用 Skill，over-design→收敛	系统设计 + 抗过度设计的克制	over-engineering 引力	从建单系统到编排一组系统
G4 多 Agent / 知识工厂	🎛️编排治理	编排 agent+skill、立治理规约、批量流水线	架构判断 + 治理设计	协调成本陡增、审阅带宽成唯一瓶颈	（现役末端，暂无）

读这张表的方式：每一行的”门槛”列不是”更难”，是”难的性质换了”——G1 考语言、G2 考元认知、G3 考抽象与克制、G4 考治理。这正是 G0 §0 说的”代际不可通约”：你不能用前一代的能力指标度量后一代，因为它们考的根本不是一回事。这也是为什么”Rick 是天生 power user”是个错误归因——他是逐道跨过四道性质不同的门槛才到这里的，每一道都有可观察的转型现场。

§6 判断主轴：90% 的人复盘自己的 AI 使用演化时会犯的四个错

G01 防的是跨代误判（把使用能力线性外推、把后一代当前一代的纯粹超越）。G02 的判断主轴防的是另一类——代内归因误判：把成长史读错，从而学不到可迁移的东西。每个给【症状 → 为什么会错 → 正确做法 → 真实反例】四件套。

坑 1：把”门槛跨越”误归因为”天赋/熟练度”

症状：“Rick 天生就是 power user""用得多自然就会多 Agent 编排了。”
为什么会错：每一代之间是性质不同的认知门槛（语言→元认知→系统设计→治理），不是同一种能力的累积。从 G2 到 G3，跨的不是”更熟练”，是”会不会把使用抽象成系统”——这是一次类型跃迁，不会因为多用就自动发生。
正确做法：把成长史拆成”具体跨过了哪几道门槛、每道靠什么认知转型跨过去的”。Rick 的可观察转型点是钉死的：用 ML 框架做记忆干预（跨进 G2 元认知）、用 skill-creator 收敛 over-design（跨进 G3 系统设计的克制面）、用 A/B/C/D 框架塌缩 agent（跨进 G4 治理）。
真实反例：一个重度 AI 用户用了三年，始终停在 G1（写复杂提示）——他很熟练，但从未跨进 G2 的元认知（从不管理 AI 对他的建模），因为”熟练”和”元认知转向”是两种能力，前者不自动通向后者。用量不等于代际跃迁。

坑 2：把”现役末端”当成”终点/最优”，停止迭代

症状：“我已经会多 Agent 编排了，这就是 power user 的顶了。”
为什么会错：G4 是 Rick 当前的现役末端，不是客观终点。把”我目前的最高代”误当”使用的天花板”，会让人停止寻找下一道门槛、停止给当前代际找失效模式。
正确做法：对现役末端保持”它也有自己的瓶颈和失效模式”的警觉（G4 的审阅瓶颈、协调成本就是），把精力放在”沉淀这一代的失败模式”而非”宣告自己到顶”。
真实反例：本次工厂的审阅瓶颈（493 条待审、三步 ingestion 积压）证明 G4 远未成熟——若 Rick 把”我有流水线了”当终点，就看不见这条流水线把瓶颈精确推到了他自己的审阅带宽上，也就不会去设计下一代（如何让审阅本身被部分自动化/分层）。现役末端是问题的新前线，不是答案的终点。

坑 3：把”系统设计能力”误当”系统越多越好”（over-engineering 归因盲点）

症状：“我设计了 12 个 agent / 五个 Skill，所以我很厉害。”
为什么会错：系统设计能力的高阶标志是减法（该砍的砍、该合的合），不是数量。把”建了多少”当能力证明，恰恰是 over-engineering 的症状——而 over-engineering 是 G3/G4 最常见的失效模式。
正确做法：用”砍掉了几个该砍的、收敛了几个臃肿的”来度量系统设计成熟度。Rick 的 trip-structure 收敛、12→5+6 塌缩，都是”减法即能力”的标本。
真实反例：v1.3 的 12 角色架构，如果 Rick 没有主动发起”是否 over-engineering”的挑战、没塌缩到 v1.4，它就会成为一个维护成本高、真实使用率低的臃肿系统——“建得多”在这里是负债不是资产。抗过度设计的判断力比系统设计能力稀缺，也更晚习得。

坑 4：把”AI 产能放大”误当”净提效”，忽略瓶颈转移

症状：“我有多 Agent 流水线了，产出翻了好几倍，所以效率大涨。”
为什么会错：G4 把成本从”生产”转移到了”审阅与治理”，不是消灭了成本。当流水线一次吐出几百条产物，瓶颈就从”写得出来吗”反转为”审得过来吗”——这是 0418 审阅瓶颈专题的核心命题在个人使用史上的精确复现。
正确做法：评估 G4 的真实收益时，把审阅带宽、治理成本、归因成本算进去；设计流水线时同步设计”如何让审阅可分层、可抽样、不沦为橡皮图章”。
真实反例：本次工厂 Phase 1 产出 493 条带评级材料 + 三步 ingestion 沙盒——产能是真放大了，但 Rick 的审阅成了不可外包的瓶颈，三步 ingestion 防污染的同时制造了审阅积压。多 Agent 的净提效要减去转移到审阅/治理上的成本，否则是把生产瓶颈换成了审阅瓶颈而自以为净赚。

§7 产品 PM 视角补盲：把”个人使用代际”读成”产品/团队/招聘”信号的三个非工程点

工程视角看”Rick 每一代怎么演化”。PM 还得看三个工程视角看不见的迁移点：

个人代际门槛 = 产品的”激活漏斗”门槛。Rick 跨过的四道门槛（工具熟练→元认知→系统设计→治理），对应着 AI 产品要帮用户跨过的四道激活台阶。绝大多数用户卡在 G1→G2（不会管理 AI 对自己的建模），这意味着记忆/上下文治理是产品最该降低门槛的环节——可它恰恰是当前产品做得最隐晦、最不可见的部分。对做 AI 产品的 PM：用户从”会用”到”会管”的转化率，可能是比 DAU 更关键的深度指标。
“自我民族志”作为一手用户研究方法的价值与边界。Rick 把自己当 N=1 极端 power user 做厚描述，这在产品上对应 lead user 研究（von Hippel 1986）——领先用户的痛点常领先市场。但N=1 的厚描述给的是”机理假设”不是”普遍规律”：Rick 的代际路径能告诉你”门槛长什么样、跨越靠什么转型”，不能告诉你”多少比例的用户会这样走”。对 PM：自我民族志/lead user 适合生成假设，但必须配大样本（usage log、diary study）验证可推广性——把单一极端用户的路径当产品路线图是经典误用。
招聘叙事：谈”我跨过了哪几道门槛”比谈”我会用什么工具”显判断力。对求职 AI PM 的 Rick：面试时说”我会写复杂提示/会用 Claude Code”是 G1 基线（人人都会）；说”我用 ML 的过拟合框架诊断并治理 AI 对我的建模""我主动塌缩了自己的 12-agent 架构因为它 over-engineering""我设计了 AI 写权限的沙盒隔离规约”才是 G2/G3/G4 的差异化叙事——它展示的是对 AI 协作系统的元层判断力，而非工具熟练度。这套谈法的底气来自可观察的设计史，不是自我标榜。

§8 对手框架回应：接受”自我民族志揭示一手机理”，但守住”N=1 不可推广 + 自陈数据有重建偏差”边界

[!note] 对手立场：质性研究的”自我沉溺/缺乏严谨”批评派（Delamont, Walford） Sara Delamont（加的夫大学，2007/2012）批评自我民族志”缺乏学术严谨性”、是学术性的 navel-gazing（自我沉溺）；Geoffrey Walford 质疑个人叙事有变成”虚构”的风险、文本是否真实再现事件（来源：Delamont 2007/2012；Walford；综述见 ResearchGate “Autoethnography as a research method: Advantages, limitations and criticisms”）。Anderson（2006，Journal of Contemporary Ethnography 35(4)，DOI:10.1177/0891241605280449）的”分析式自我民族志”五特征（完整成员研究者 / 分析性反身性 / 叙事可见 / 与他者对话 / 理论承诺）本身就是对纯唤起式叙事”只有故事没有理论”的内部修正。

接受它对的部分：本节点确实暴露在这两个批评下。

navel-gazing 风险是真的：研究 Rick 自己、由 Rick 自己读，天然有”自我合理化”的引力——把每个决策都叙述成深思熟虑，掩盖掉运气、随性、事后诸葛。
重建偏差是真的：think-aloud 文献早已记录”回顾性报告的合理化问题”（post-hoc rationalization，Ericsson & Simon 框架）——Rick 几天/几周后回看自己的对话存档时填的”我当时为什么这么做”，可能是重建而非真实回忆。

守住的边界（本节点的赌注）：

用”可观察 vs 内省”的硬切分对抗自我沉溺。本节点把所有可被文件/时间戳验证的（skill 设计史、记忆治理记录、工厂运作）如实分析，把所有需要内省的留 〔Rick 待填〕 模板——绝不替 Rick 编造感受/动机。这正是 Anderson 五特征里”分析性反身性”+“叙事可见”的落地：研究者可见，但推断不伪装成自陈。这条切分线是本专题对 Delamont 批评最实质的回应——不是辩称”我们不自恋”，是用结构强制把”事实”和”自述”分开放。
N=1 的可推广性，本节点明确不主张（见 §0 方法论自觉 callout、§7 补盲点 2）。本专题的产出是”单一极端个案的内部机理 + 可比对的厚描述”，不是”power user 的普遍成长曲线”。凡溢出这条线的断言都是 failure scenario，需打回。
采用 Anderson 而非纯 Ellis/Bochner 的唤起式路线：本专题要的是”分析性理论建构”（代际门槛的机理、瓶颈转移的规律），不是纯情感共鸣的叙事——这是有意的方法选择，也是对”只有故事无洞见”批评的预先回应。但同时接受唤起式的合理内核：〔Rick 待填〕 里要的”真实体感”（审阅积压时的行为、塌缩时的感受）本身就有 verisimilitude（栩栩如生性）价值，不必硬塞进理论框架。

failure scenario 显式标注：

若 Rick 在 〔Rick 待填〕 里填入的是”我应该有的想法”而非”我真实的想法”，整个内省层就退化成自我合理化——本节点无法从内部检测这种污染，只能靠 Rick 自己的诚实。
若读者把 Rick 的四代路径当成”我也该这么走”的攻略，就是把 N=1 机理误用为普遍规律——§7 补盲点 2 已警示，但误用风险无法靠文本根除。
若可观察记录本身有幸存者偏差（Rick 只归档了”成功/有趣”的对话，失败/无聊的没存），则”代际演化”的证据基础就偏了——这是 usage log 类研究的通病，本节点的对话存档同样适用（详见 §9 跨域呼应对 diary study 流失率的讨论）。

confirmation-bias 砍除：本节点早期叙述有把每一代都写成”Rick 主动、清醒、设计精良地跨越”的引力（如把 blocklist→allowlist 写成纯理性转型）——这是 confirmation bias。补入反例视角：转型也可能是被某次失败/外部概念触发的被动反应，而非主动设计（§2、§3、§4 的 〔Rick 待填〕 引导问题已专门追问”触发点是什么、是主动设计还是撞出来的”，正是为了砍掉这条 bias）。

结论性赌注：Rick 的 AI 使用代际演化，最有价值的不是”他到了第4代”这个结果，而是”每一代之间有一道可命名、可观察、性质各异的认知门槛”这个机理——这个机理在 N=1 上是扎实的，在可推广性上是开放的。这个判断的失效条件清晰：若后续有大样本 power user 研究显示”代际门槛”在多数人身上不成立、或顺序完全不同，则本专题的机理需降级为”Rick 特异路径”。

§9 跨域呼应：分析式自我民族志（Anderson）+ diary study 的流失率——为什么”对话存档”既是金矿也是陷阱

[!note] 调度框架：Anderson 的分析式自我民族志（完整成员研究者 / 分析性反身性，2006）+ 日记研究（diary study）的方法论限度（民族志、人类学、0117社会学） Rick 同时是研究者和被研究者——这是 Anderson 说的”完整成员研究者（CMR）“的极端形态。而 Rick 的对话存档（99Archive/9910 claude 对话存档/）本质是一份自然产生的 diary：它不是为研究刻意记的，而是使用 AI 的副产品。这给了本专题一个稀缺优势（真实、未经表演的行为痕迹），也带来 diary study 的经典陷阱。

把这两个框架对接到本节点，得到两条关键的方法论纪律：

纪律一 · 对话存档是金矿，因为它是”未经表演”的行为痕迹。Diary study 在 HCI 里的价值是捕捉”实验室无法捕捉的情境化使用”——而 Rick 的存档比刻意的 diary 更纯净：它是使用的副产品，没有”知道自己在被研究”的表演成分。skill 设计史、记忆治理对话、12→5+6 塌缩的判别过程，都是在真实任务里自然发生、自然归档的。这是本专题相对外部访谈/问卷的不可替代优势——它绕过了 think-aloud 的”同步思考是否改变认知”的反应性难题（Ericsson & Simon 框架的核心争议），因为 Rick 当时并不知道这些对话日后会成为研究材料。

纪律二 · 对话存档是陷阱，因为它有 diary study 的两大通病——选择性留存与流失率。Diary study 的已知难题是”参与者自报的不完整 + 长期研究的高流失率（attrition）“。Rick 的存档同样：①选择性留存——若只有”成功/有趣”的对话被归档、失败/无聊/中断的没存，则代际演化的证据就有幸存者偏差（§8 failure scenario 3）；②流失/稀疏——某些代际的关键转型可能恰好发生在没被存档的对话里，导致机理链条有缺环。DiaryHelper（Li et al., 2024，arXiv:2404.19738）那类”AI 辅助补全 diary 情境信息”的方案能缓解不完整，但会引入新问题——AI 辅助采集改变了”自然记录”的本质（该研究自己讨论的争议）。

这两条纪律合起来给本专题一个可操作的判据：可观察证据要优先采信那些有连续对话链、有迭代痕迹的代际转型（如两轮过拟合干预、trip-structure 的 over-design→收敛、12→5+6 塌缩——这些都有完整对话留痕，抗选择性偏差），而对那些只有零星痕迹、靠 Rick 事后回忆补全的转型保持警惕（标 〔Rick 待填〕 并追问触发点）。Anderson 的”分析性反身性”在这里的落地就是：研究者要自觉审视自己的数据来源有没有偏差，而不只是分析数据本身。这也回应了 Polanyi 默会知识与提示工程的认识论张力——Rick 跨越每代门槛时积累的默会知识（怎么诊断过拟合、怎么判断 over-design、怎么定 SABCD），大部分从未被言说，对话存档只捕捉到了被显式表达的那一小部分；自我民族志能逼近这层默会知识，但永远无法完全外化它，这是本专题方法论上不可消除的余量。

§10 PM 决策启示：面试 / 自我复盘 / 用户研究怎么用这套逐代解剖

面试桌：被追问”你怎么算 AI power user / 你的 AI 能力体现在哪”，别答”我用得多/会用很多工具”（G1 基线，人人都会），用四道门槛答：“我可观察地跨过了四道性质不同的门槛——用 ML 过拟合框架治理 AI 对我的建模（元认知）、用 skill-creator 主动收敛 over-design 的 Skill（系统设计的克制）、用 A/B/C/D 框架把自己的 12-agent 架构塌缩到 5+6（治理判断）。我判断一个人/一个产品的 AI 成熟度，看的是他跨过了哪几道门槛、尤其有没有’减法即能力’的克制，而不是用量或工具数。“这比堆工具名显出对 AI 协作系统的元层判断力。
自我复盘：用四代门槛 + §6 四坑给自己的 AI 使用史做体检——我现在卡在哪道门槛？（多数人卡 G1→G2）我有没有把”系统多”误当”能力强”（坑 3）？我的多 Agent 流水线有没有把瓶颈悄悄换成审阅瓶颈而我没算（坑 4）？这套自检本身就是 Anderson”分析性反身性”的个人实践。
用户研究 / 做 AI 产品：把”个人代际门槛”翻译成”产品激活漏斗”——绝大多数用户卡在 G1→G2（不会管理 AI 对自己的建模），这是产品最该降门槛、却做得最隐晦的环节。用自我民族志/lead user（von Hippel 1986）方法生成假设（领先用户的痛点领先市场），但必须配 usage log / diary study 验证可推广性——把 N=1 极端用户的路径直接当产品路线图是经典误用（§7 补盲点 2、§8 边界）。

§11 与已有节点的关系

本节点是 G01 的逐代下沉，对既有单维节点做的是”代际时点定位 + 跨越机理分析”而非复述——把 Rick 各代 AI 使用模式，按”典型工作流/能力门槛/瓶颈/被超越接口/可观察证据+内省缺口”五件套逐代展开，并给每代一个门槛标签与跨越机理判断。

与 G01 使用代际谱系总图：显式分工不重叠。G01 是总图（四代接力链 + 破”越用越强”线性进步史 + 跨代外推误判坑）；G02 是逐代详解（每代五件套 + 门槛标签 🔑🧠🏗️🎛️ + 代内归因四坑 + 跨越机理）。G01 防跨代外推、G02 防代内归因，两节点判断主轴正交。不复述 G01 的四代接力机制，只取其骨架做逐代解剖。
对 Skill 系统的本质（概念节点）：本节点取其”Skill = procedural knowledge 的文档化封装”定义，做 G3 Skill 工程化代际的理论底座，并补它没有的”Skill 工程化在个人使用史上的代际位置 + over-design 失效模式”。不复述 其 Skill 抽象层级原理；做的是”代际维度的升格 + 把它放进成长史”。
对 AI 记忆过拟合与泛化能力（概念节点）：本节点取其过拟合/泛化框架做 G2 记忆治理代际的瓶颈分析依据。不复述 其过拟合机制，只取其支撑”记忆是双刃、第2代的命门是防过拟合/平均化”的判断。
对 PKM 设计哲学与演化史（Meta 节点）：本节点取其 v1.3→v1.4 塌缩史（12→5+6、A/B/C/D 判别）做 G4 治理代际的核心标本。不复述 其完整演化时间线，只取塌缩这一段做”治理 = 减法判断”的证据。
对 0418 审阅瓶颈专题（审阅瓶颈专题）：G02 §4/§6 坑 4 直接调用其”AI 产能趋零、瓶颈反转为人类审阅带宽”命题，解释 G4 的审阅瓶颈——是跨专题引用而非复述。本专题的 Rick 审阅行为（SABCD 评级、三步 ingestion 积压）正是 0418 的一手数据来源；两专题互为佐证：0418 给瓶颈的一般机理，0423 给一个极端用户身上的具体现场。对照 G02 审阅关系代际演化详解”审阅负载比被推过 1”的框架，G4 是其个人版。
对 Polanyi 默会知识与提示工程的认识论张力：G02 §2/§9 取其”默会知识外化必有损耗”洞察，解释记忆治理的过拟合/平均化困境与对话存档的不完整——跨域引用，给原理由它出、应用由本节点出。
对 G02 编程工具代际演化详解（0414 专题）：显式升级对照。编程工具 G02 解剖的是”工具代际的生命周期定位（萌芽/红利/见顶/基线化）“——研究对象是市场上的产品；本节点解剖的是”个人使用代际的能力门槛（工具熟练/元认知/系统设计/治理）“——研究对象是 Rick 自己。两者在”代内择时/归因误判""over-design 是系统设计能力的阴面""多 Agent 红利高度任务依赖+成本转移”三处同构，但视角从”外部产品”升到”内部使用者”，抽象层不同。本节点是其”人侧”的镜像专题。

§12 关联节点

核心（必读）

G01 使用代际谱系总图（本节点的总图，逐代血肉的骨架）
Skill 系统的本质（G3 Skill 工程化的理论底座）
AI 记忆过拟合与泛化能力（G2 记忆治理瓶颈的框架）
PKM 设计哲学与演化史（G4 治理代际的塌缩标本）
Polanyi 默会知识与提示工程的认识论张力（默会知识外化损耗，贯穿 G2/G9）
G02 编程工具代际演化详解（“人侧 vs 产品侧”代际演化的镜像对照）
G02 审阅关系代际演化详解（G4 审阅瓶颈的一般机理）
Claude Code（Rick 跨越 G3/G4 的主要协作工具标本）
民族志、人类学（自我民族志的方法论母体）

延伸（可选）

旅行规划 Skill 套件系统设计（G3 trip 套件系统设计现场）
trip-structure skill（G3 over-design→收敛标本）
Claude routines 调研与 memory allowlist 设计（G2→G3 立规转型现场）
AI PM 知识图谱框架设计（G3 框架操控行为的另一标本）
intellectual-lens skill 通过圣周案例的迭代（G1 提示诊断法标本）
NMAAHC 深度导览与 AI 表达元批评、VOC 博物馆评级与同构失败诊断（本次工厂 0412–0423 meta-case 的现场产物）
A02 抽象层级辨析·Harness Framework Agent Skill Orchestrator（Skill/Agent/Orchestrator 抽象层级，G3/G4 的概念边界）
S03 Harness Engineering 全景（G4 编排的工程全景）
0114认识论、0117社会学（自我民族志的认识论与社会学根基）
Agent（G4 编排的对象单元）
AI PM 知识图谱·总索引

§13 修订日志

R0（2026-06-07，初稿）：按宪章 §4 十一段骨架与 G02 的 brief（逐代：典型工作流、能力门槛、瓶颈、被下代超越；以 vault 可观察证据为主 + 〔Rick 待填〕；衔接 G01 不重复）写成。与 G01 的显式分工：G01 = 总图 + 跨代外推误判坑 + 破”越用越强”线性进步史；G02 = 逐代五件套 + 门槛标签（🔑工具熟练/🧠元认知/🏗️系统设计/🎛️编排治理）+ 代内归因四坑 + 跨越机理，判断主轴与 G01 正交。§0 框架辨析（逐代工作流解剖 vs 再画谱系，防代内归因误判）+ N=1 方法论自觉 callout；§1–§4 四代各一张五件套表 + 详解 + 反例 + 门槛标签 + 〔Rick 待填〕模板（G1 提示工程 / G2 记忆与上下文治理 / G3 Skill 工程化 / G4 多 Agent 与知识工厂）；§4 把本次”专题工厂”0412–0423 作为可观察 meta-case 写入；§5 四代逐代对照总表；§6 判断主轴四坑（门槛误归因为天赋 / 现役末端当终点 / 系统多当能力强 / 产能放大当净提效），各带四件套；§7 PM 补盲三点（个人门槛=产品激活漏斗 / 自我民族志的 lead user 价值与边界 / 招聘叙事谈门槛而非工具）；§8 对手框架”接受+边界”（Delamont/Walford 自我沉溺批评 + Anderson 分析式五特征 + 重建偏差），含 failure scenario ×3 + confirmation-bias 砍除；§9 跨域 Anderson 分析式自我民族志 + diary study 流失率/选择性留存 + Polanyi 默会知识余量；§10 三类落地（面试/自我复盘/用户研究做 AI 产品）；§11 与 G01/Skill系统的本质/AI记忆过拟合/PKM演化史/0418/Polanyi/0414 G02 显式升级对照（不复述）；§12 核心/延伸分档关联节点（密度 ≈26）。 接地状态：可观察证据均强接地到 vault 真实产物 + 对话存档 + 时间戳——trip 套件五 Skill（2026-03-31～04-01）、intellectual-lens 竞品对照迭代（2026-04-05）、两轮过拟合干预（2026-03-23）、blocklist→allowlist 转型（2026-05-13）、trip-structure over-design→收敛（2026-04-03）、12→5+6 塌缩 A/B/C/D 框架（2026-05-17～05-21）、CLAUDE.md 六原则、本次工厂 0412–0423 约 40+ 对话 + 40+ 节点、Phase 1 SABCD 分布（S:14/A:103/B:194/C:182，引 99Archive/_README.md）。方法学外部引用均经领料核实并标来源：Anderson 2006（JCE 35(4)，DOI:10.1177/0891241605280449）、Delamont 2007/2012、Walford、Ellis & Bochner 2000、Ericsson & Simon 框架、von Hippel 1986、Li et al. 2024 DiaryHelper（arXiv:2404.19738）。 仍待接地/待校准：①所有 〔Rick 待填〕 内省模板（§1–§4）是结构性留白，等 Rick 一手填入后方可视为完整证据，当前不得替填——这是自我民族志的诚实底线；②arXiv:2404.19738（DiaryHelper, Li et al. 2024, CHI，12 人两周）已经 0423 QC pass WebFetch 复核，ID/作者/摘要确认无误；③G01 同专题节点双链已在 0423 QC pass 修正为正确 basename G01 Rick 的 AI 使用代际演化总图（原误写”G01 使用代际谱系总图”，已加 alias 保留行文）；④门槛标签的”四代划分”是本节点对 Rick 使用史的判断性建构（非客观分期），属趋势性判断，若 G01 的代际切分与本节点不一致需对齐；⑤”绝大多数用户卡 G1→G2”（§7/§10）是基于 power user 概念的推断，非 Rick 一手数据可证，已限定为推断、需大样本验证。 2026-06-07 QC+归档 pass（0423 QC Agent）：① 修复 G01 同专题死链（旧”G01 使用代际谱系总图” → 正确 basename，加 alias）；② 修复 4 处 0418专题 跨专题死链 → 真实总览 _审阅瓶颈系统化专题·总览（带 alias）；③ arXiv:2404.19738 经 WebFetch 确认。