R

G02 使用代际演化详解

创建 2026-06-07 更新 2026-06-11 0 条双链 自我民族志 专题 AI 整理

G02 使用代际演化详解

本节点要解决的问题是:G01 使用代际谱系总图 给了一屏看全的”Rick 作为极端 power user,AI 使用模式如何逐代演化”的接力链,但自我民族志真正要钉死的是更细的一题——“每一代使用模式,它的典型工作流长什么样?要跨过什么能力门槛才进得去?它卡在哪个瓶颈上、又是被下一代的什么具体动作掀翻的?” 视角是「逐代工作流解剖」——对”提示工程”→“记忆与上下文治理”→“Skill 工程化”→“多 Agent 编排 / 知识工厂”每一代,展开它的典型工作流、能力门槛、瓶颈、被下代超越的具体接口、可观察证据 + 〔Rick 待填〕的内省缺口五件套。G01 是地图,G02 是给地图上每一段路标注路况、限速与”我当时为什么过不去这道坎”。

[!warning] 接地纪律(本节点的生命线) 本专题的研究对象是 Rick 本人,独一无二、无外部竞品可比对。可观察的(skill 设计史、vault 结构、memory 治理记录、本次”专题工厂”0412–0423 的运作)如实分析、强接地到对话存档与文件时间戳;凡需要 Rick 内省才能回答的(信任校准、注意力分配、迁移时的主观体感、为什么选 A 不选 B 的真实动机),一律留 〔Rick 待填〕 结构化模板与引导问题,绝不替他编造感受/决策。这正是分析式自我民族志(Anderson 2006)“narrative visibility + analytic reflexivity”对诚实的要求:研究者可见,但不得把推断伪装成自陈。


§0 为什么用”逐代工作流解剖”而不是”再画一遍谱系”

G01 已经把 Rick 的 AI 使用排成一条接力链,并破了”一代更比一代强”的线性进步史——那是 G01 的命门。本节点不重复那条链,要补 G01 故意留白的一格:每一代使用模式都有自己的工作流形态、入场门槛与卡死点,而自我民族志的价值恰恰在于把这些”代内细节”——尤其是”我当时卡在哪、怎么跨过去的”——一手记录下来。

为什么这个视角值得单开一节?因为 G01 防的是跨代误判(把后一代当前一代的纯粹超越、把使用能力线性外推成”越用越强”),G02 防的是另一类——代内归因误判:把”我现在能做多 Agent 编排”当成”我天生就是 power user”,从而丢失”每一代之间都有一道具体的、可命名的能力门槛,跨过去靠的是具体的认知转型而非天赋”这一自我民族志的核心洞察。前者是地图问题,后者是路况问题。

[!note] 一个贯穿全节的工具:每代的”门槛标签” 下文每一代都给一个能力门槛标签:🔑工具熟练 / 🧠元认知 / 🏗️系统设计 / 🎛️编排治理。这个标签不是”用得多熟”,而是**“跨进这一代需要发生的认知转型类型”**——从”会用工具”到”会监控自己怎么用工具”,从”会监控”到”会把使用工程化成可复用系统”,从”会建系统”到”会编排和治理一群系统”。每跨一级,门槛的性质都变了,这正是 G01 “代际不可通约”在个人成长史上的回声:不能用”提示写得好不好”度量”系统设计得好不好”,因为它们考的不是一回事。

[!warning] 方法论自觉:N=1 的双刃 本节点是单被试(N=1)的自我民族志,先天无法证明”Rick 的代际演化是 power user 的普遍路径”。它能做的是厚描述(thick description)单一极端个案的内部机理,供后来者比对,而非给出可推广的成长曲线。凡涉及”一般 power user 也会这样”的断言,本节点一律降级为”在 Rick 这一个案上观察到”——这条边界在 §6、§8 反复出现,是本专题最大的 failure scenario(见 §8)。


§1 第1代 · 提示工程时代——🔑“把需求说清楚”的单轮对话

维度内容
典型工作流单轮或少数几轮对话:抛出需求 → 看输出 → 改措辞重试。工作流的全部杠杆在”怎么把话说清楚”上——发散、收敛、明确指令、机制核查这套节奏的雏形,在 trip 套件设计早期(2026-03-31 ~ 04-01,〔私人记录〕)已可见,但此时它还附着在单次任务里,没有被抽象成可复用的”提示资产”
能力门槛🔑工具熟练:知道模型能干什么、不能干什么;能把模糊意图翻译成模型听得懂的指令。门槛是”语言精度”——这是 power user 的入门税,但远非天花板
瓶颈提示是一次性的、不可复用的、藏在对话历史里的。同一类任务每次都要重新把上下文喂进去、重新调措辞;好的提示无法沉淀、无法版本化、无法跨会话迁移。Rick 的 intellectual-lens 迭代(intellectual-lens skill 通过圣周案例的迭代,2026-04-05)暴露了这个瓶颈的解法雏形——用”竞品输出对照”定位差距在提示的哪一步、做局部修补——但这套手艺此时还是默会的,存在 Rick 脑子里,没有外化成制品
被下代超越的具体接口当”好提示”开始被反复需要、且 Rick 意识到”记忆/上下文”可以承载跨会话的偏好与约束时,第1代就被掀翻了——提示从”每次重说”变成”沉淀进记忆/Skill”。接口是持久化:让有价值的提示资产不再随对话历史蒸发
可观察证据 / 内省缺口可观察:trip 套件早期对话、intellectual-lens 的”竞品输出对照”迭代法已归档。〔Rick 待填〕:见下

详解:提示工程不是”被淘汰的旧阶段”,而是后面所有代际的度量原点——Skill 的本质是”把反复用的提示工程化封装”,多 Agent 编排的每个 agent 内核仍是一段提示。它没有退场,它沉到了水面下成为地板。Rick 的 intellectual-lens 案例尤其能说明这一点:那套”拿另一个 AI 的分析输出当参照系、定位差距来源在 prompt 的哪一步、局部修补”的方法,本质是把提示工程做成了一个可诊断的工序——这已经是第1代里最高阶的玩法,但它还没被外化成 Skill,所以仍属第1代。

反例(破”提示工程过时、power user 都该谈 Agent”):把”我会写复杂提示”当成入门即可丢弃的旧技能,是误读。后几代的能力全建在提示精度之上——Skill 写得好不好,取决于封装进去的提示对不对;多 Agent 编排出不出活,取决于每个 subagent 的提示约束准不准。提示工程是地板也是天花板的一部分,不是落后选项。 这接 Skill 系统的本质:Skill 是”procedural knowledge 的文档化封装”,而被封装的核心正是提示工程的产物——G02 取其代际时点含义:提示工程的生命周期不是”结束”,是”从台前的手艺沉为每一代的内核”。

[!note] 〔Rick 待填:第1代的入场体感〕 以下需要你的一手内省,可观察记录里没有,请勿让任何 agent 替你填:

  • 你最早把 AI 当”能认真协作的对象”而非”搜索引擎升级版”,是哪个具体任务/时刻让你切换了心智模型?
  • “竞品输出对照”这套提示诊断法,是有意设计的方法、还是某次撞出来后才意识到它可复用?
  • 第1代时,你判断”一次输出够不够好”的内部标准是什么?什么时候你会选择重试、什么时候选择接受将就?

§2 第2代 · 记忆与上下文治理时代——🧠“管住 AI 记什么”的元认知转向

维度内容
典型工作流不再只关心”这一轮说什么”,而是主动管理跨会话的状态:哪些偏好该让 AI 记住、哪些该外移、哪些记错了要反向删除。工作流从”对着输出调”升级为”对着 AI 的记忆/上下文配置调”——一个元层(meta-level)动作
能力门槛🧠元认知:能跳出”任务执行”去监控”AI 怎么形成对我的模型、这个模型在哪过拟合了”。这是从”用工具”到”监控自己怎么用工具、并干预工具对我的建模”的认知转型——门槛陡然抬高,多数用户终生不跨这一步
瓶颈记忆是双刃的:它让 AI 更懂你,也让 AI 对你的偏好过拟合、丢失泛化能力。Rick 2026-03-23(〔私人记录〕)主动用 ML 框架(过拟合/泛化)做了两轮元层干预——第一轮诊断过拟合、要求解耦”偏好了解”与”审美能力”;第二轮防止矫枉过正成平均化、要求保留高水平审美基底(“泛化 ≠ 平均化”)。瓶颈是:记忆治理没有现成方法论,全靠 Rick 自己发明操作语和判别标准(详见 AI 记忆过拟合与泛化能力
被下代超越的具体接口当 Rick 从”管单条记忆”升级为”设计记忆的结构原则”——blocklist→allowlist 转型(2026-05-13,Claude routines 调研与 memory allowlist 设计)——第2代就开始向第3代溢出。接口是从”调参”到”立规”:不再逐条管记忆,而是定一条”memory 只保留索引头、详细内容外移到 Obsidian”的结构规则,并要求 AI 把”先 dump 能力矩阵、再在矩阵内构思方案”写进记忆。这已经是把”治理”本身工程化,是第3代的前夜
可观察证据 / 内省缺口可观察:两轮过拟合干预文本、blocklist→allowlist 转型、反向删除旧记忆条目的行为均已归档。〔Rick 待填〕:见下

详解:第2代是 Rick 使用史上第一次明确的”元认知转向”——他不再只问”AI 这次答得好不好”,而是问”AI 对我的建模是不是过拟合了""我该让它记什么、不记什么”。用 ML 术语(过拟合/泛化)做 prompt 工程,是一个极强的信号:他把对 AI 的干预从”内容层”提到了”AI 如何学习我”的元层。blocklist→allowlist 的转型尤其关键——从”列举不要什么”(防御性、无穷尽)切换到”只保留索引头、详情外移”(建设性、有界),这是一次认识论而非技巧的升级。

G02 要补 G01 的细节是:第2代的”记忆”红利和瓶颈绑在同一件事上——AI 记得越多越懂你,但也越容易把你的当下偏好固化成审美天花板。Rick 的两轮干预正是在这条钢丝上走:既要 AI 懂他(保留高水平审美基底),又要它别把”懂”退化成”重复他过去的口味”(防过拟合),还要防止矫正过头成”谁的口味都不像”的平均化。这三者的张力没有现成解,是 Rick 一个案上的一手发明。

反例(破”记忆越多越好、让 AI 尽量记住一切”):把”让 AI 记住我所有偏好”当成 power user 的目标,会撞上过拟合墙——AI 会把你某个阶段的口味当成永恒标准,输出越来越”像你过去”、越来越缺新意,且这种退化隐蔽到你不主动诊断就发现不了。Rick 之所以能发现,是因为他有 ML 的过拟合框架当探针。记忆治理的核心不是”记多少”,是”记什么 + 防过拟合 + 不退化成平均”——这是第2代的命门,也是多数用户根本意识不到的盲区。 这接 Polanyi 默会知识与提示工程的认识论张力:Rick 试图把”什么是好审美”这种高度默会的判断,通过记忆治理部分地传递给 AI——而 Polanyi 的洞察恰恰是”我们知道的比我们能说出来的多”,所以这种传递必然有损耗,记忆治理的过拟合/平均化困境,本质是默会知识外化时的失真。

[!note] 〔Rick 待填:记忆治理的信任校准〕 以下涉及你的内省,可观察记录无法回答:

  • 你做 blocklist→allowlist 转型时,触发点是什么?是某次 AI 用错了记忆、还是读到某个外部概念(routines/allowlist)后回头审视自己的做法?
  • 两轮过拟合干预之间,你怎么判断”第一轮矫正过头了、有平均化风险”?是看到了具体的劣化输出,还是预判性地踩刹车?
  • 你对 AI 记忆的信任校准是怎样的——哪些类型的偏好你放心让它记,哪些你坚持外移到 vault 自己管?这条线背后的判据是什么?

§3 第3代 · Skill 工程化时代——🏗️”把使用沉淀成可复用系统”的系统设计转向

维度内容
典型工作流不再每次重写提示,而是把反复用的协作模式封装成 Skill:设计 → over-design → 被自己拉回 → 收敛 → 用元 Skill(skill-creator)重写。典型代表是 trip 套件五件家族(trip-discover / trip-evaluate / trip-macro / trip-structure / trip-qa)的系统设计(2026-03-31~04-01)与 trip-structure skill 的 over-design→收敛迭代(2026-04-03,〔私人记录〕)
能力门槛🏗️系统设计:能把一次性的使用抽象成”可触发、可组合、可版本化、可被别的 Skill 调用”的制品;能区分”哪些该是 Skill、哪些该留在对话里”。门槛是抽象能力 + 抗 over-design 的克制——能建系统的人多,能在建系统时主动收敛、不把它做臃肿的人少
瓶颈Skill 工程化的天然引力是 over-engineering:能封装就想多封装,结果系统越来越重、维护成本越来越高、真实使用频率反而下降。trip-structure 的迭代轨迹(over-design → Rick 拉回 → skill-creator 重写收敛)正是这个瓶颈的现场。瓶颈是:系统设计能力一旦上手,最大的敌人不是”建不出来”,是”建太多”(详见 旅行规划 Skill 套件系统设计
被下代超越的具体接口当 Skill 多到需要编排(谁先跑、谁调谁、哪些要独立 context 隔离),单个 Skill 工程化就升级为多 Agent / 系统架构问题。接口是从”建单个系统”到”编排一组系统”——2026-05-17~05-21 的 vault 协作架构演化(单 agent → 8 → 11 → 12 角色 v1.3 → 塌缩为 5 sub-agent + 6 skill v1.4,详见 PKM 设计哲学与演化史)就是这个跨越
可观察证据 / 内省缺口可观察:trip 套件五 Skill、intellectual-lens、trip-structure over-design→收敛轨迹、skill-creator 元 Skill 的使用均已归档。〔Rick 待填〕:见下

详解:第3代是 Rick 从”AI 使用者”变成”AI 协作系统设计者”的分水岭。Skill 系统的本质 把 Skill 定义为”procedural knowledge 的文档化封装”——这个定义本身就是 Rick 系统设计转向的产物:他不再把”怎么用 AI”当成临场发挥,而是当成可以被外化、版本化、组合的工程对象。trip 套件的”发散-收敛-明确指令-机制核查”四步节奏,是把第1代的单次提示手艺,升格成了一套可复用的设计方法论。

G02 要补 G01 的细节是:第3代的红利(可复用、可组合、可沉淀团队/个人 know-how)和瓶颈(over-engineering)是同一种能力的两面。能把使用抽象成系统的人,几乎必然有把系统做臃肿的引力——因为抽象本身令人愉悦。trip-structure 的迭代史是这个张力的标本:Rick 先 over-design(系统设计能力的正面),再自己拉回、用 skill-creator 重写收敛(对抗 over-design 的克制)。这一来一回,正是第3代最有价值的一手数据——它记录了”系统设计能力”和”抗过度设计的判断力”是两种独立的能力,后者比前者稀缺。

反例(破”会建 Skill = 高阶 power user”):把”我设计了五个 Skill”当成能力证明,可能恰恰是 over-engineering 的症状。真正的判断力不在”建了几个”,在”砍掉了几个该砍的、把几个该合并的合并了”。Rick 的 trip-structure 收敛、以及后来 v1.3→v1.4 的 agent 塌缩(12→5+6),证明能力的高阶标志是减法而非加法。Skill 工程化的命门是抗 over-design,不是会封装——这和编程工具专题里”系统设计能力 ≠ 抗过度设计的判断力是两种能力”是同构的洞察(参见 G02 编程工具代际演化详解 对 AI 原生 IDE”红利与瓶颈绑在 fork 这一件事上”的分析)。

[!note] 〔Rick 待填:Skill 设计的克制从哪来〕 以下需要你的内省:

  • trip-structure 的 over-design,你是在设计中途就察觉、还是做完看了输出格式才发现臃肿?让你”拉回”的具体信号是什么?
  • 你判断”这个该是 Skill、那个该留在对话里”的内部判据是什么?(频率?复杂度?可组合性?还是别的?)
  • 五个 trip Skill 里,旅行中真正高频触发的是哪几个?有没有设计了但实际很少用、甚至该删的?(这正是 G01 brief 里”被下代超越/被弃用”的代内版本)

§4 第4代 · 多 Agent 编排 / 知识工厂时代——🎛️”编排与治理一群系统”的治理转向

维度内容
典型工作流不再设计单个 Skill,而是编排一组 agent + skill 协同,并为它们立治理规约。两个标本:(a) vault 协作架构 v1.4——用 A/B/C/D 框架判别”只有真正需要独立 context 隔离的保留为 agent,其余降为 skill”,从 12 角色塌缩到 5 sub-agent + 6 skill;(b) 本次”专题工厂”(0412–0423)——一条 write-first 多 agent 流水线:旅途现场触发 AI 对话 → 存档 → SABCD 评级 → Phase 1 批量 pipeline(Enricher/Integrator)处理入库 → 升格为笔记节点
能力门槛🎛️编排治理:能设计”谁该是独立 agent、谁降为 skill、AI 写权限怎么隔离、产物按什么触发条件分层”的规则系统。门槛是架构判断 + 治理设计——不只是”让多个 agent 跑起来”,而是”在它们之间立规矩、防污染、可审计”
瓶颈编排的成本不是线性的:agent 越多,协调、审阅、归因的认知开销越陡。本次工厂的审阅环节正撞上 0418 审阅瓶颈专题 的核心命题——当 AI 产能趋零,瓶颈反转为人类审阅带宽99Archive/_README.md 记录的 Phase 1 评级分布(S:14 / A:103 / B:194 / C:182,约 493 条)意味着 Rick 要对几百条产物做价值判断——审阅瓶颈在多 agent 下被放大,这正是 G02 审阅关系代际演化详解 所说”审阅负载比被推过 1”的个人版现场
被下代超越的具体接口暂无明确”第5代”——多 Agent 编排 / 知识工厂是 Rick 当前使用史的现役末端。若未来出现新的协作范式(如更自治的 agent 市场、跨项目记忆共享成熟),会接力。当前该做的是沉淀这一代的最佳实践与失败模式,而非急着宣告下一代
可观察证据 / 内省缺口可观察:v1.3→v1.4 塌缩的 A/B/C/D 判别框架、CLAUDE.md 六原则(含三步 ingestion 沙盒、三层产物体系)、本次工厂 0412–0423 约 40+ 条对话存档与 40+ 升格节点、SABCD 评级分布均已归档/可查。〔Rick 待填〕:见下

详解:第4代是 Rick 从”系统设计者”变成”系统治理者”的转向。两个标本最能说明问题:

标本一 · v1.3→v1.4 塌缩是 Rick 对自己的 AI 工具做 over-design 检验的直接证据——这和第3代 trip-structure 的收敛是同一种克制能力,但作用在更高的抽象层(不是收敛一个 Skill,是收敛整个 agent 架构)。A/B/C/D 判别框架(只有真正需要独立 context 隔离的保留为 agent)是一条可复用的治理判据,把”该几个 agent”从审美问题变成了工程问题。这正是 G01 brief 强调的”被下代超越”的反面:第4代不是简单”比第3代更强”,它引入了第3代没有的新失效模式——编排的协调成本与审阅瓶颈

标本二 · 本次”专题工厂”(0412–0423)是一个真实可观察的 meta-case——这套正在运行的多 agent 知识生产流水线,本身就是本专题的研究对象之一(这是自我民族志最罕见的机会:研究方法和研究对象同构)。它的可观察结构包括:旅途现场触发 AI 对话(〔私人记录〕 等约 40+ 条存档)→ SABCD 评级分类 → 批量 pipeline 处理 → 升格为散落在美国史与旅行两个分类的约 40+ 节点(如 NMAAHC 深度导览与 AI 表达元批评、VOC 博物馆评级与同构失败诊断)。“write-first”的最可能含义是:先产出原始对话(write first)→ 后续批量处理入库,而非逐条手工——这把审阅从”实时”挪到了”批量回看”,是一个明确的工作流设计选择。

G02 要补 G01 的细节是:第4代的治理成本没有一张统一账单,但它最尖锐地体现在审阅瓶颈上。CLAUDE.md 原则四的”三步 ingestion”(AI 产出先入 _ai_review/ 沙盒、Rick 审阅后才 move)是 Rick 亲手设计的”AI 写权限隔离”——这是工程化的防污染机制,但它把 Rick 锁在了”必审”的位置上。当 Phase 1 一次产出 493 条带评级的产物,三步 ingestion 的沙盒就成了一个堆满待审材料的关口。这正是第4代的命门:你越是把 AI 产能工程化放大,你自己的审阅带宽就越是唯一的瓶颈——这是 Rick 的 review 行为成为 0418 审阅瓶颈专题 一手数据的结构性原因。

反例(破”多 Agent / 知识工厂必然提效”):把”我有一条多 agent 流水线”当成纯粹的产能胜利,会忽略它把成本从”生产”转移到了”审阅与治理”。本次工厂产出几百条材料,但 Rick 对它们的价值判断(哪条 S、哪条 C)是不可外包的瓶颈;三步 ingestion 防了污染,却也制造了审阅积压。多 Agent 编排的红利在”可干净拆解、可批量处理的任务”上成立,但它把瓶颈精确地推到了人类审阅带宽上——这和编程工具专题 G02 编程工具代际演化详解 §5”多 Agent 红利高度任务依赖、协调成本陡增”是同一类认识论纪律,只是这里的协调成本主要表现为审阅成本。

[!note] 〔Rick 待填:编排与审阅的一手体感〕 以下是本专题最关键、最不可替代的内省缺口——可观察记录里完全没有,任何 agent 都不得替你编造:

  • v1.4 塌缩的真实驱动:是认知疲劳(12 个 agent 管不过来)、架构美感(觉得它不优雅)、还是纯效率?你自己的感受是哪一个、或哪几个的混合?
  • SABCD 评级的内部标准:14 条 S 和 182 条 C 之间,你的价值判断依据是什么?评级时哪里最容易犹豫、边界最模糊?(这直接喂给 0418 审阅瓶颈专题)
  • 审阅积压时的真实行为:当 _ai_review/ 沙盒堆满待审材料,你是逐条认真审、还是会进入某种”批量略读”模式?三步 ingestion 在实际操作中制造了多少流程阻力?哪条原则最容易被你自己跳过?
  • write-first 的认知差异:先产出再批量处理 vs 实时处理,你感受到的决策感/掌控感有什么不同?批量回看时,你会不会对自己几天前的现场对话产生”陌生感”或”重评”?
  • AI 作为田野扩展器:旅途中现场提问-分析(博物馆导览、历史问题),你是否有意识地把 AI 当田野观察的扩展器?它改变了旅行体验的深度或方向感吗?

§5 一张表:四代逐代对照(典型工作流 → 门槛 → 瓶颈 → 被超越接口)

代际门槛标签典型工作流能力门槛(认知转型)核心瓶颈被下代超越的接口
G1 提示工程🔑工具熟练单/少轮对话,调措辞重试语言精度:意图→指令提示一次性、不可复用、藏在历史里持久化(沉淀进记忆/Skill)
G2 记忆与上下文治理🧠元认知管 AI 记什么、防过拟合、反向删记忆元认知:监控并干预 AI 对我的建模记忆双刃——更懂你也更易过拟合/平均化从调参到立规(结构原则)
G3 Skill 工程化🏗️系统设计封装可复用 Skill,over-design→收敛系统设计 + 抗过度设计的克制over-engineering 引力从建单系统到编排一组系统
G4 多 Agent / 知识工厂🎛️编排治理编排 agent+skill、立治理规约、批量流水线架构判断 + 治理设计协调成本陡增、审阅带宽成唯一瓶颈(现役末端,暂无)

读这张表的方式:每一行的”门槛”列不是”更难”,是”难的性质换了”——G1 考语言、G2 考元认知、G3 考抽象与克制、G4 考治理。这正是 G0 §0 说的”代际不可通约”:你不能用前一代的能力指标度量后一代,因为它们考的根本不是一回事。这也是为什么”Rick 是天生 power user”是个错误归因——他是逐道跨过四道性质不同的门槛才到这里的,每一道都有可观察的转型现场。


§6 判断主轴:90% 的人复盘自己的 AI 使用演化时会犯的四个错

G01 防的是跨代误判(把使用能力线性外推、把后一代当前一代的纯粹超越)。G02 的判断主轴防的是另一类——代内归因误判:把成长史读错,从而学不到可迁移的东西。每个给【症状 → 为什么会错 → 正确做法 → 真实反例】四件套。

坑 1:把”门槛跨越”误归因为”天赋/熟练度”

  • 症状:“Rick 天生就是 power user""用得多自然就会多 Agent 编排了。”
  • 为什么会错:每一代之间是性质不同的认知门槛(语言→元认知→系统设计→治理),不是同一种能力的累积。从 G2 到 G3,跨的不是”更熟练”,是”会不会把使用抽象成系统”——这是一次类型跃迁,不会因为多用就自动发生。
  • 正确做法:把成长史拆成”具体跨过了哪几道门槛、每道靠什么认知转型跨过去的”。Rick 的可观察转型点是钉死的:用 ML 框架做记忆干预(跨进 G2 元认知)、用 skill-creator 收敛 over-design(跨进 G3 系统设计的克制面)、用 A/B/C/D 框架塌缩 agent(跨进 G4 治理)。
  • 真实反例:一个重度 AI 用户用了三年,始终停在 G1(写复杂提示)——他很熟练,但从未跨进 G2 的元认知(从不管理 AI 对他的建模),因为”熟练”和”元认知转向”是两种能力,前者不自动通向后者。用量不等于代际跃迁。

坑 2:把”现役末端”当成”终点/最优”,停止迭代

  • 症状:“我已经会多 Agent 编排了,这就是 power user 的顶了。”
  • 为什么会错:G4 是 Rick 当前的现役末端,不是客观终点。把”我目前的最高代”误当”使用的天花板”,会让人停止寻找下一道门槛、停止给当前代际找失效模式。
  • 正确做法:对现役末端保持”它也有自己的瓶颈和失效模式”的警觉(G4 的审阅瓶颈、协调成本就是),把精力放在”沉淀这一代的失败模式”而非”宣告自己到顶”。
  • 真实反例:本次工厂的审阅瓶颈(493 条待审、三步 ingestion 积压)证明 G4 远未成熟——若 Rick 把”我有流水线了”当终点,就看不见这条流水线把瓶颈精确推到了他自己的审阅带宽上,也就不会去设计下一代(如何让审阅本身被部分自动化/分层)。现役末端是问题的新前线,不是答案的终点。

坑 3:把”系统设计能力”误当”系统越多越好”(over-engineering 归因盲点)

  • 症状:“我设计了 12 个 agent / 五个 Skill,所以我很厉害。”
  • 为什么会错:系统设计能力的高阶标志是减法(该砍的砍、该合的合),不是数量。把”建了多少”当能力证明,恰恰是 over-engineering 的症状——而 over-engineering 是 G3/G4 最常见的失效模式。
  • 正确做法:用”砍掉了几个该砍的、收敛了几个臃肿的”来度量系统设计成熟度。Rick 的 trip-structure 收敛、12→5+6 塌缩,都是”减法即能力”的标本。
  • 真实反例:v1.3 的 12 角色架构,如果 Rick 没有主动发起”是否 over-engineering”的挑战、没塌缩到 v1.4,它就会成为一个维护成本高、真实使用率低的臃肿系统——“建得多”在这里是负债不是资产。抗过度设计的判断力比系统设计能力稀缺,也更晚习得。

坑 4:把”AI 产能放大”误当”净提效”,忽略瓶颈转移

  • 症状:“我有多 Agent 流水线了,产出翻了好几倍,所以效率大涨。”
  • 为什么会错:G4 把成本从”生产”转移到了”审阅与治理”,不是消灭了成本。当流水线一次吐出几百条产物,瓶颈就从”写得出来吗”反转为”审得过来吗”——这是 0418 审阅瓶颈专题 的核心命题在个人使用史上的精确复现。
  • 正确做法:评估 G4 的真实收益时,把审阅带宽、治理成本、归因成本算进去;设计流水线时同步设计”如何让审阅可分层、可抽样、不沦为橡皮图章”。
  • 真实反例:本次工厂 Phase 1 产出 493 条带评级材料 + 三步 ingestion 沙盒——产能是真放大了,但 Rick 的审阅成了不可外包的瓶颈,三步 ingestion 防污染的同时制造了审阅积压。多 Agent 的净提效要减去转移到审阅/治理上的成本,否则是把生产瓶颈换成了审阅瓶颈而自以为净赚。

§7 产品 PM 视角补盲:把”个人使用代际”读成”产品/团队/招聘”信号的三个非工程点

工程视角看”Rick 每一代怎么演化”。PM 还得看三个工程视角看不见的迁移点:

  1. 个人代际门槛 = 产品的”激活漏斗”门槛。Rick 跨过的四道门槛(工具熟练→元认知→系统设计→治理),对应着 AI 产品要帮用户跨过的四道激活台阶。绝大多数用户卡在 G1→G2(不会管理 AI 对自己的建模),这意味着记忆/上下文治理是产品最该降低门槛的环节——可它恰恰是当前产品做得最隐晦、最不可见的部分。对做 AI 产品的 PM:用户从”会用”到”会管”的转化率,可能是比 DAU 更关键的深度指标。
  2. “自我民族志”作为一手用户研究方法的价值与边界。Rick 把自己当 N=1 极端 power user 做厚描述,这在产品上对应 lead user 研究(von Hippel 1986)——领先用户的痛点常领先市场。但N=1 的厚描述给的是”机理假设”不是”普遍规律”:Rick 的代际路径能告诉你”门槛长什么样、跨越靠什么转型”,不能告诉你”多少比例的用户会这样走”。对 PM:自我民族志/lead user 适合生成假设,但必须配大样本(usage log、diary study)验证可推广性——把单一极端用户的路径当产品路线图是经典误用。
  3. 招聘叙事:谈”我跨过了哪几道门槛”比谈”我会用什么工具”显判断力。对求职 AI PM 的 Rick:面试时说”我会写复杂提示/会用 Claude Code”是 G1 基线(人人都会);说”我用 ML 的过拟合框架诊断并治理 AI 对我的建模""我主动塌缩了自己的 12-agent 架构因为它 over-engineering""我设计了 AI 写权限的沙盒隔离规约”才是 G2/G3/G4 的差异化叙事——它展示的是对 AI 协作系统的元层判断力,而非工具熟练度。这套谈法的底气来自可观察的设计史,不是自我标榜。

§8 对手框架回应:接受”自我民族志揭示一手机理”,但守住”N=1 不可推广 + 自陈数据有重建偏差”边界

[!note] 对手立场:质性研究的”自我沉溺/缺乏严谨”批评派(Delamont, Walford) Sara Delamont(加的夫大学,2007/2012)批评自我民族志”缺乏学术严谨性”、是学术性的 navel-gazing(自我沉溺);Geoffrey Walford 质疑个人叙事有变成”虚构”的风险、文本是否真实再现事件(来源:Delamont 2007/2012;Walford;综述见 ResearchGate “Autoethnography as a research method: Advantages, limitations and criticisms”)。Anderson(2006,Journal of Contemporary Ethnography 35(4),DOI:10.1177/0891241605280449)的”分析式自我民族志”五特征(完整成员研究者 / 分析性反身性 / 叙事可见 / 与他者对话 / 理论承诺)本身就是对纯唤起式叙事”只有故事没有理论”的内部修正。

接受它对的部分:本节点确实暴露在这两个批评下。

  • navel-gazing 风险是真的:研究 Rick 自己、由 Rick 自己读,天然有”自我合理化”的引力——把每个决策都叙述成深思熟虑,掩盖掉运气、随性、事后诸葛。
  • 重建偏差是真的:think-aloud 文献早已记录”回顾性报告的合理化问题”(post-hoc rationalization,Ericsson & Simon 框架)——Rick 几天/几周后回看自己的对话存档时填的”我当时为什么这么做”,可能是重建而非真实回忆。

守住的边界(本节点的赌注)

  • 用”可观察 vs 内省”的硬切分对抗自我沉溺。本节点把所有可被文件/时间戳验证的(skill 设计史、记忆治理记录、工厂运作)如实分析,把所有需要内省的留 〔Rick 待填〕 模板——绝不替 Rick 编造感受/动机。这正是 Anderson 五特征里”分析性反身性”+“叙事可见”的落地:研究者可见,但推断不伪装成自陈。这条切分线是本专题对 Delamont 批评最实质的回应——不是辩称”我们不自恋”,是用结构强制把”事实”和”自述”分开放。
  • N=1 的可推广性,本节点明确不主张(见 §0 方法论自觉 callout、§7 补盲点 2)。本专题的产出是”单一极端个案的内部机理 + 可比对的厚描述”,不是”power user 的普遍成长曲线”。凡溢出这条线的断言都是 failure scenario,需打回。
  • 采用 Anderson 而非纯 Ellis/Bochner 的唤起式路线:本专题要的是”分析性理论建构”(代际门槛的机理、瓶颈转移的规律),不是纯情感共鸣的叙事——这是有意的方法选择,也是对”只有故事无洞见”批评的预先回应。但同时接受唤起式的合理内核:〔Rick 待填〕 里要的”真实体感”(审阅积压时的行为、塌缩时的感受)本身就有 verisimilitude(栩栩如生性)价值,不必硬塞进理论框架。

failure scenario 显式标注

  1. 若 Rick 在 〔Rick 待填〕 里填入的是”我应该有的想法”而非”我真实的想法”,整个内省层就退化成自我合理化——本节点无法从内部检测这种污染,只能靠 Rick 自己的诚实。
  2. 若读者把 Rick 的四代路径当成”我也该这么走”的攻略,就是把 N=1 机理误用为普遍规律——§7 补盲点 2 已警示,但误用风险无法靠文本根除。
  3. 若可观察记录本身有幸存者偏差(Rick 只归档了”成功/有趣”的对话,失败/无聊的没存),则”代际演化”的证据基础就偏了——这是 usage log 类研究的通病,本节点的对话存档同样适用(详见 §9 跨域呼应对 diary study 流失率的讨论)。

confirmation-bias 砍除:本节点早期叙述有把每一代都写成”Rick 主动、清醒、设计精良地跨越”的引力(如把 blocklist→allowlist 写成纯理性转型)——这是 confirmation bias。补入反例视角:转型也可能是被某次失败/外部概念触发的被动反应,而非主动设计(§2、§3、§4 的 〔Rick 待填〕 引导问题已专门追问”触发点是什么、是主动设计还是撞出来的”,正是为了砍掉这条 bias)。

结论性赌注Rick 的 AI 使用代际演化,最有价值的不是”他到了第4代”这个结果,而是”每一代之间有一道可命名、可观察、性质各异的认知门槛”这个机理——这个机理在 N=1 上是扎实的,在可推广性上是开放的。 这个判断的失效条件清晰:若后续有大样本 power user 研究显示”代际门槛”在多数人身上不成立、或顺序完全不同,则本专题的机理需降级为”Rick 特异路径”。


§9 跨域呼应:分析式自我民族志(Anderson)+ diary study 的流失率——为什么”对话存档”既是金矿也是陷阱

[!note] 调度框架:Anderson 的分析式自我民族志(完整成员研究者 / 分析性反身性,2006)+ 日记研究(diary study)的方法论限度(民族志、人类学、0117社会学) Rick 同时是研究者和被研究者——这是 Anderson 说的”完整成员研究者(CMR)“的极端形态。而 Rick 的对话存档(99Archive/9910 claude 对话存档/)本质是一份自然产生的 diary:它不是为研究刻意记的,而是使用 AI 的副产品。这给了本专题一个稀缺优势(真实、未经表演的行为痕迹),也带来 diary study 的经典陷阱。

把这两个框架对接到本节点,得到两条关键的方法论纪律:

纪律一 · 对话存档是金矿,因为它是”未经表演”的行为痕迹。Diary study 在 HCI 里的价值是捕捉”实验室无法捕捉的情境化使用”——而 Rick 的存档比刻意的 diary 更纯净:它是使用的副产品,没有”知道自己在被研究”的表演成分。skill 设计史、记忆治理对话、12→5+6 塌缩的判别过程,都是在真实任务里自然发生、自然归档的。这是本专题相对外部访谈/问卷的不可替代优势——它绕过了 think-aloud 的”同步思考是否改变认知”的反应性难题(Ericsson & Simon 框架的核心争议),因为 Rick 当时并不知道这些对话日后会成为研究材料。

纪律二 · 对话存档是陷阱,因为它有 diary study 的两大通病——选择性留存与流失率。Diary study 的已知难题是”参与者自报的不完整 + 长期研究的高流失率(attrition)“。Rick 的存档同样:①选择性留存——若只有”成功/有趣”的对话被归档、失败/无聊/中断的没存,则代际演化的证据就有幸存者偏差(§8 failure scenario 3);②流失/稀疏——某些代际的关键转型可能恰好发生在没被存档的对话里,导致机理链条有缺环。DiaryHelper(Li et al., 2024,arXiv:2404.19738)那类”AI 辅助补全 diary 情境信息”的方案能缓解不完整,但会引入新问题——AI 辅助采集改变了”自然记录”的本质(该研究自己讨论的争议)。

这两条纪律合起来给本专题一个可操作的判据:可观察证据要优先采信那些有连续对话链、有迭代痕迹的代际转型(如两轮过拟合干预、trip-structure 的 over-design→收敛、12→5+6 塌缩——这些都有完整对话留痕,抗选择性偏差),而对那些只有零星痕迹、靠 Rick 事后回忆补全的转型保持警惕(标 〔Rick 待填〕 并追问触发点)。Anderson 的”分析性反身性”在这里的落地就是:研究者要自觉审视自己的数据来源有没有偏差,而不只是分析数据本身。这也回应了 Polanyi 默会知识与提示工程的认识论张力——Rick 跨越每代门槛时积累的默会知识(怎么诊断过拟合、怎么判断 over-design、怎么定 SABCD),大部分从未被言说,对话存档只捕捉到了被显式表达的那一小部分;自我民族志能逼近这层默会知识,但永远无法完全外化它,这是本专题方法论上不可消除的余量。


§10 PM 决策启示:面试 / 自我复盘 / 用户研究怎么用这套逐代解剖

  • 面试桌:被追问”你怎么算 AI power user / 你的 AI 能力体现在哪”,别答”我用得多/会用很多工具”(G1 基线,人人都会),用四道门槛答:“我可观察地跨过了四道性质不同的门槛——用 ML 过拟合框架治理 AI 对我的建模(元认知)、用 skill-creator 主动收敛 over-design 的 Skill(系统设计的克制)、用 A/B/C/D 框架把自己的 12-agent 架构塌缩到 5+6(治理判断)。我判断一个人/一个产品的 AI 成熟度,看的是他跨过了哪几道门槛、尤其有没有’减法即能力’的克制,而不是用量或工具数。“这比堆工具名显出对 AI 协作系统的元层判断力
  • 自我复盘:用四代门槛 + §6 四坑给自己的 AI 使用史做体检——我现在卡在哪道门槛?(多数人卡 G1→G2)我有没有把”系统多”误当”能力强”(坑 3)?我的多 Agent 流水线有没有把瓶颈悄悄换成审阅瓶颈而我没算(坑 4)?这套自检本身就是 Anderson”分析性反身性”的个人实践。
  • 用户研究 / 做 AI 产品:把”个人代际门槛”翻译成”产品激活漏斗”——绝大多数用户卡在 G1→G2(不会管理 AI 对自己的建模),这是产品最该降门槛、却做得最隐晦的环节。用自我民族志/lead user(von Hippel 1986)方法生成假设(领先用户的痛点领先市场),但必须配 usage log / diary study 验证可推广性——把 N=1 极端用户的路径直接当产品路线图是经典误用(§7 补盲点 2、§8 边界)。

§11 与已有节点的关系

本节点是 G01 的逐代下沉,对既有单维节点做的是”代际时点定位 + 跨越机理分析”而非复述——把 Rick 各代 AI 使用模式,按”典型工作流/能力门槛/瓶颈/被超越接口/可观察证据+内省缺口”五件套逐代展开,并给每代一个门槛标签与跨越机理判断。

  • G01 使用代际谱系总图显式分工不重叠。G01 是总图(四代接力链 + 破”越用越强”线性进步史 + 跨代外推误判坑);G02 是逐代详解(每代五件套 + 门槛标签 🔑🧠🏗️🎛️ + 代内归因四坑 + 跨越机理)。G01 防跨代外推、G02 防代内归因,两节点判断主轴正交。不复述 G01 的四代接力机制,只取其骨架做逐代解剖。
  • Skill 系统的本质(概念节点):本节点取其”Skill = procedural knowledge 的文档化封装”定义,做 G3 Skill 工程化代际的理论底座,并补它没有的”Skill 工程化在个人使用史上的代际位置 + over-design 失效模式”。不复述 其 Skill 抽象层级原理;做的是”代际维度的升格 + 把它放进成长史”。
  • AI 记忆过拟合与泛化能力(概念节点):本节点取其过拟合/泛化框架做 G2 记忆治理代际的瓶颈分析依据。不复述 其过拟合机制,只取其支撑”记忆是双刃、第2代的命门是防过拟合/平均化”的判断。
  • 对 PKM 设计哲学与演化史(Meta 节点):本节点取其 v1.3→v1.4 塌缩史(12→5+6、A/B/C/D 判别)做 G4 治理代际的核心标本。不复述 其完整演化时间线,只取塌缩这一段做”治理 = 减法判断”的证据。
  • 0418 审阅瓶颈专题(审阅瓶颈专题):G02 §4/§6 坑 4 直接调用其”AI 产能趋零、瓶颈反转为人类审阅带宽”命题,解释 G4 的审阅瓶颈——是跨专题引用而非复述。本专题的 Rick 审阅行为(SABCD 评级、三步 ingestion 积压)正是 0418 的一手数据来源;两专题互为佐证:0418 给瓶颈的一般机理,0423 给一个极端用户身上的具体现场。对照 G02 审阅关系代际演化详解”审阅负载比被推过 1”的框架,G4 是其个人版。
  • Polanyi 默会知识与提示工程的认识论张力:G02 §2/§9 取其”默会知识外化必有损耗”洞察,解释记忆治理的过拟合/平均化困境与对话存档的不完整——跨域引用,给原理由它出、应用由本节点出。
  • G02 编程工具代际演化详解(0414 专题):显式升级对照。编程工具 G02 解剖的是”工具代际的生命周期定位(萌芽/红利/见顶/基线化)“——研究对象是市场上的产品;本节点解剖的是”个人使用代际的能力门槛(工具熟练/元认知/系统设计/治理)“——研究对象是 Rick 自己。两者在”代内择时/归因误判""over-design 是系统设计能力的阴面""多 Agent 红利高度任务依赖+成本转移”三处同构,但视角从”外部产品”升到”内部使用者”,抽象层不同。本节点是其”人侧”的镜像专题。

§12 关联节点

核心(必读)

延伸(可选)


§13 修订日志

  • R0(2026-06-07,初稿):按宪章 §4 十一段骨架与 G02 的 brief(逐代:典型工作流、能力门槛、瓶颈、被下代超越;以 vault 可观察证据为主 + 〔Rick 待填〕;衔接 G01 不重复)写成。与 G01 的显式分工:G01 = 总图 + 跨代外推误判坑 + 破”越用越强”线性进步史;G02 = 逐代五件套 + 门槛标签(🔑工具熟练/🧠元认知/🏗️系统设计/🎛️编排治理)+ 代内归因四坑 + 跨越机理,判断主轴与 G01 正交。§0 框架辨析(逐代工作流解剖 vs 再画谱系,防代内归因误判)+ N=1 方法论自觉 callout;§1–§4 四代各一张五件套表 + 详解 + 反例 + 门槛标签 + 〔Rick 待填〕模板(G1 提示工程 / G2 记忆与上下文治理 / G3 Skill 工程化 / G4 多 Agent 与知识工厂);§4 把本次”专题工厂”0412–0423 作为可观察 meta-case 写入;§5 四代逐代对照总表;§6 判断主轴四坑(门槛误归因为天赋 / 现役末端当终点 / 系统多当能力强 / 产能放大当净提效),各带四件套;§7 PM 补盲三点(个人门槛=产品激活漏斗 / 自我民族志的 lead user 价值与边界 / 招聘叙事谈门槛而非工具);§8 对手框架”接受+边界”(Delamont/Walford 自我沉溺批评 + Anderson 分析式五特征 + 重建偏差),含 failure scenario ×3 + confirmation-bias 砍除;§9 跨域 Anderson 分析式自我民族志 + diary study 流失率/选择性留存 + Polanyi 默会知识余量;§10 三类落地(面试/自我复盘/用户研究做 AI 产品);§11 与 G01/Skill系统的本质/AI记忆过拟合/PKM演化史/0418/Polanyi/0414 G02 显式升级对照(不复述);§12 核心/延伸分档关联节点(密度 ≈26)。 接地状态:可观察证据均强接地到 vault 真实产物 + 对话存档 + 时间戳——trip 套件五 Skill(2026-03-31~04-01)、intellectual-lens 竞品对照迭代(2026-04-05)、两轮过拟合干预(2026-03-23)、blocklist→allowlist 转型(2026-05-13)、trip-structure over-design→收敛(2026-04-03)、12→5+6 塌缩 A/B/C/D 框架(2026-05-17~05-21)、CLAUDE.md 六原则、本次工厂 0412–0423 约 40+ 对话 + 40+ 节点、Phase 1 SABCD 分布(S:14/A:103/B:194/C:182,引 99Archive/_README.md)。方法学外部引用均经领料核实并标来源:Anderson 2006(JCE 35(4),DOI:10.1177/0891241605280449)、Delamont 2007/2012、Walford、Ellis & Bochner 2000、Ericsson & Simon 框架、von Hippel 1986、Li et al. 2024 DiaryHelper(arXiv:2404.19738)。 仍待接地/待校准:①所有 〔Rick 待填〕 内省模板(§1–§4)是结构性留白,等 Rick 一手填入后方可视为完整证据,当前不得替填——这是自我民族志的诚实底线;②arXiv:2404.19738(DiaryHelper, Li et al. 2024, CHI,12 人两周)已经 0423 QC pass WebFetch 复核,ID/作者/摘要确认无误;③G01 同专题节点双链已在 0423 QC pass 修正为正确 basename G01 Rick 的 AI 使用代际演化总图(原误写”G01 使用代际谱系总图”,已加 alias 保留行文);④门槛标签的”四代划分”是本节点对 Rick 使用史的判断性建构(非客观分期),属趋势性判断,若 G01 的代际切分与本节点不一致需对齐;⑤”绝大多数用户卡 G1→G2”(§7/§10)是基于 power user 概念的推断,非 Rick 一手数据可证,已限定为推断、需大样本验证。 2026-06-07 QC+归档 pass(0423 QC Agent):① 修复 G01 同专题死链(旧”G01 使用代际谱系总图” → 正确 basename,加 alias);② 修复 4 处 0418专题 跨专题死链 → 真实总览 _审阅瓶颈系统化专题·总览(带 alias);③ arXiv:2404.19738 经 WebFetch 确认。