E02 知识生产 Workflow 剖解·deep-survey 与本 vault

当一个 PM 把自己的知识生产流程外包给一群 agent 之后，他到底还在干什么？这是本节点要拆的问题。视角是「把 Rick 的知识生产 workflow——deep-survey skill、本 PKM vault 的三步策展协议、以及你正在读的这套『专题工厂』流水线——当作一个真实可观察的自我民族志样本」，用一条判断主轴贯穿：知识生产的 AI 化没有消灭人的劳动，它只是把劳动的重心从『生产』暴力地搬到了『审阅』，而这个新配比，绝大多数人既没测量过、也没为它设计过工具。

§0 为什么是这个框架而不是那个

分析「AI 辅助知识生产」时有两个默认框架要先挡掉。

第一个是生产力框架：把 AI 当成一个产出放大器，问题简化为「同样时间能多产出几篇笔记/几份报告」。这个框架的盲点是它假设产出是瓶颈。但只要你真的让 agent 跑起来——本工厂一个批次就能吐出几十个节点草稿——你会立刻发现瓶颈根本不在产出端，而在「这几十篇里哪些值得入库、哪些是言之凿凿的编造、哪些跨域呼应是空喊」的判断端。生产力框架测错了变量。

第二个是自动化框架：把目标设成「让 AI 全自动产出可用知识，人退出回路」。这个框架的盲点是它把「人在回路」当成过渡态的临时成本，而非稳态结构。本节点的反共识立场恰恰相反：人在回路不是 bug，是这个流水线唯一的价值锚点；agent 越强，回路里那个做最终判断的人就越重要，而不是越可有可无（0418 审阅瓶颈专题把这条单独立为专题主轴）。

所以本节点采用的框架是**「生产-审阅配比测量」框架**：不问「AI 能产出多少」，而问「当产出变得近乎免费，一个知识工作者的时间实际被重新分配到了哪里，这个分配是否被设计过、被测量过、被工具支撑过」。这恰好是自我民族志的强项——它要求研究者把自己作为研究对象（Anderson 2006 的 Complete Member Researcher 特征），而 Rick 既是这套 workflow 的设计者，又是唯一的审阅者，是观察这个配比的完美样本。

§1 三个样本：deep-survey、vault 协议、专题工厂

本节点的接地来源不是外部论文，而是 Rick 的 vault 真实产物和正在运行的本工厂。先界定三个可观察的样本。

样本	性质	可观察证据	在「生产-审阅」轴上的位置
deep-survey skill	一个把「领域综述长文 + EPUB 打包」工程化的 skill	skill 描述要求正文 ≥1.5 万字、QA 自检、承重图示、中文输出	高度自动化生产端；审阅前置进 skill 的 QA pass
本 vault 三步 ingestion 协议	vault 根 CLAUDE.md 原则四：AI 产出先入 `_ai_review/` 沙盒 → Rick 审阅 → move	协议文本可查；`99Archive/_ai_review/` 目录真实存在并正被本工厂使用	显式的审阅闸门；把审阅制度化为一道不可绕过的关卡
本「专题工厂」(0412–0423 系列)	多 agent 流水线：ground→draft→critique→revise→verify→synthesize	本节点本身就是该流水线的产物；改稿档案留在 `_topic_factory/`	极端自动化生产 + 极端制度化审阅的组合实验

这三者构成一个递进：deep-survey 把「单篇生产」工程化；vault 协议把「审阅」制度化；专题工厂把两者组装成一条多 agent 流水线，并用对抗式同行评议（§10 of SHARED_CONTEXT）替代单人审阅的一部分。三个样本里，审阅都不是事后补救，而是被前置、被分层、被制度化的核心环节——这本身就是对「生产力框架」的实践性反驳。

§2 deep-survey：把综述生产压成可重复的 skill

deep-survey 是观察「生产端自动化到什么程度」的最好切片。它的 skill 描述（可在本环境 skill 列表中查到原文）把一项原本需要数天的工作——综述型领域地图 ≥1.5 万字、专题型按深度自定篇幅——压成一个可触发的过程。关键不在「它能写多长」，而在它把哪些人类判断显式编码进了 skill：承重图示（structural diagram）、QA 自检、综述型 vs 专题型的选题分流。

这是 Rick 典型的工程化动作，和他设计 trip 套件（旅行规划 Skill 套件系统设计）、trip-structure skill 的手法同构：把 procedural knowledge 文档化封装，而非每次重新口头指挥。但 deep-survey 暴露了一个生产端自动化的硬边界——skill 能保证「结构齐备、长度达标、有自检」，却无法保证「判断密度」和「事实不编造」。这两件正是 SHARED_CONTEXT §1 的 A 维（判断密度）和 §8（事实接地）所盯的，也正是 skill 自动化覆盖不到、必须靠审阅端兜底的部分。换句话说，deep-survey 把生产端的「形式劳动」自动化了，却把「判断劳动」原封不动地推给了下游的审阅者。

§3 vault 三步协议：把审阅制度化为闸门

如果 deep-survey 代表生产端，本 vault 的三步 ingestion 协议就代表审阅端的制度化。vault 根 CLAUDE.md 原则四规定：AI 产出一律先写入 _ai_review/ 沙盒，Rick 审阅后才 move 到主区。本节点此刻就躺在 99Archive/_ai_review/0423-autoethno/ 里，是这条协议的活样本。

这道闸门做了三件在业界 AI-augmented PKM 中少见的事：

写权限隔离：agent 默认没有污染 vault 主区的权限，等同于工程上的 staging 环境。AI 的产出在被人类判断「确认有价值」之前，不被承认为知识库的一部分。
审阅被显式标价：每篇草稿 frontmatter 带 final_path:，意味着「这篇打算去哪」是产出时就要声明、审阅时要核验的一项，而不是含糊的「以后整理」。
审阅触发分层（原则六，三层产物体系）：拒绝「周报/月报」的时间周期概念，改为按触发条件判断何时复盘。这把审阅从「定期仪式」改成了「事件驱动」。

这三件事合起来的含义是：Rick 在制度层面承认了审阅是稀缺资源，并为它设计了专门的容器。这正是 §0 反共识立场的落地——他没有把人在回路当过渡成本去消除，而是给它盖了一座专门的关卡。

[!note] 跨域呼应 · Polanyi 默会知识 Polanyi 默会知识与提示工程的认识论张力指出：能被显式编码进 prompt/skill 的，恰恰是知识里「可言说」的那一层；真正的判断力——「这篇好在哪、这条引用我凭直觉觉得不对」——大量驻留在默会层，无法前置进 skill。这就从认识论上解释了为什么三步协议必须存在：deep-survey 能把可言说的生产劳动自动化，但默会的判断劳动必须留在审阅端由人来承担。审阅闸门不是 Rick 不信任 AI，而是默会知识的认识论结构决定了它只能在审阅端兑现。这条呼应不是装饰——它把「为什么要有沙盒」从工程偏好升级成认识论必然。

§4 专题工厂：审阅劳动本身被再次拆解外包

最值得剖的样本是你正在读的这套流水线。专题工厂把单人审阅的一部分，进一步拆解并外包给了一组批评 agent：ground（事实接地 agent）→ draft（写作 agent）→ critique（按 S/A/B/C/D/E 六维找茬的批评 agent）→ revise → verify（独立 grounding 校验 pass）→ synthesize。

这是一个值得停下来看的 meta 现象：当审阅成为新瓶颈，Rick 的反应不是「我亲自审更多」，而是「把审阅也部分工程化」。批评 agent 的默认立场被设成「找茬」而非「礼貌肯定」（SHARED_CONTEXT §10），grounding 校验被设成独立 pass 逐条判定「已接地/需接地/疑似编造」。这等于在流水线内部又复制了一遍「生产-审阅」结构：草稿是生产，critique 是审阅，而 Rick 退到了审阅之审阅的位置——他不再逐句审每篇草稿，而是审「这套批评机制本身是否在正确地找茬」。

但这里有一条不能越过的边界，必须诚实标注：批评 agent 能审的是『判断密度够不够、引用查不查得到、跨域呼应是不是空喊』这类可形式化的质量维度；它审不了『这个判断对 Rick 的求职/思维训练是否真的有价值』这类只有当事人能下的终审。后者依然是 Rick 不可外包的核心审阅劳动。流水线把审阅劳动「降维」了——把可形式化的部分外包，把不可形式化的终审收缩到一个更高、更稀缺的点。这恰好印证了 §0 的主轴：AI 化没有消灭审阅劳动，它把审阅劳动的配比从「逐篇全审」重构成「机器初审 + 人类终审」，而人类那一档不降反升。

§5 判断主轴：生产-审阅配比上 90% 的人会踩的四个坑

这是本节点的命门。把「知识生产 AI 化」做砸，几乎都砸在对生产-审阅配比的误判上。四个坑，每个带症状 → 为什么会错 → 正确做法 → 真实反例。

坑 1：把产出量当成进度。

症状：「今天 agent 跑出了 40 个节点草稿，进度很好。」
为什么会错：草稿在三步协议里还没 move，等于 staging 里的未验证代码，进度是假的。把生产量当进度，是用最不稀缺的资源（产出）冒充最稀缺的资源（已审阅确认的知识）。
正确做法：进度只按「通过审阅闸门、move 到 final_path 的节点数」计。生产量是输入，不是产出。
真实反例：本工厂 99Archive/_README.md 记录的 Phase 1 SABCD 评级分布（S:14 / A:103 / B:194 / C:182）——493 条里只有 14 条 S 级。如果按「生产了 493 条」记进度，会严重高估实际知识增量；真正的增量是审阅评级后的那一小撮高价值条目。

坑 2：把审阅当成事后补救，不为它留预算。

症状：「先让 agent 全产出，最后我一次性 review。」
为什么会错：审阅劳动随产出量线性甚至超线性增长。一次性堆到最后，审阅者面对的是一座言之凿凿、真假混杂的内容山，单条核验成本（查每个 arXiv ID、每个引用）高到事实上无法完成，结果要么放弃审阅（编造混入库），要么放弃产出。
正确做法：把审阅前置、分层、制度化——deep-survey 的 QA pass 前置一道，grounding 校验独立一道，critique agent 一道，Rick 终审一道。审阅成为流水线内建环节而非末端补丁。
真实反例：本节点的写作约束本身——「arXiv ID 必须 WebFetch 验证或标〔待核实〕」「双链只用确认存在名」——就是把审阅纪律前置到生产指令里，不让编造有机会进入草稿。

坑 3：以为 agent 越多，人就越省心。

症状：「上 12 个 agent，覆盖所有角色，我就不用管了。」
为什么会错：每多一个 agent，就多一个需要被审阅其输出质量的来源，审阅的对象从「内容」上升到「机制」，认知负荷反而上移。
正确做法：只为「真正需要独立 context 隔离」的环节设 agent，其余收为 skill。判别要有显式框架。
真实反例：Rick 自己的 vault AI 协作架构演化史（PKM 设计哲学与演化史可查）——2026-05-18 定型 12 角色 v1.3，2026-05-21 他主动发起「12 agent 是否 over-engineering」的挑战，用 A/B/C/D 判别框架（只有真需要独立 context 隔离的保留为 agent）把架构塌缩为 5 sub-agent + 6 skill 的 v1.4。这是「agent 越多越省心」假设被当事人亲手证伪的直接证据。

坑 4：把『可形式化的质量』当成『价值』的全部。

症状：「critique agent 给了六维高分，这篇就是好节点。」
为什么会错：六维（结构/判断密度/边界/认识论/可演进/对手拷问）测的是「合格」，不是「对这个人此刻是否有价值」。一篇六维满分但与 Rick 的求职底料和思维训练无关的节点，是高质量的噪声。
正确做法：保留一道机器测不了的人类终审——价值判断。这道审阅不可外包，且正是 AI 化之后人类审阅的新核心。
真实反例：本专题作为「方法专题」，研究对象是 Rick 本人独一无二的 AI 使用模式，没有外部竞争者也没有现成 benchmark——它的价值高低只有 Rick 能终审，任何批评 agent 都无从代劳。这恰是本专题刻意留 〔Rick 待填〕 模板而非替他编造的根本原因。

§6 产品 PM 视角补盲

跳出「工程化流水线」视角，补三个 PM 容易看走眼的点。

用户心理模型：如果把这套 workflow 当产品卖给其他知识工作者，最大的误判是假设用户「想要更多产出」。真实痛点是审阅焦虑——面对 AI 产出的内容山，用户的心理负担是「我怎么知道哪些可信」。产品价值主张应该是「降低审阅成本」而非「提高产出量」。这与 0418 审阅瓶颈专题把审阅立为专题主轴是同一判断的产品化表达。
商业模式：审阅劳动是稀缺资源意味着，AI 知识生产工具的护城河不在「能产出」（这会被快速商品化），而在「能多大程度降低人类终审的边际成本」——比如 grounding 自动校验、价值优先级排序。卖产出量的工具会陷入价格战；卖审阅杠杆的工具才有定价权。
合规边界：本 vault 处理 DiDi 内部材料（见 Rick 的记忆 didi-confidential-local-only），三步 ingestion 的沙盒隔离顺带提供了一道合规价值——AI 产出在进入主库前有一道人类检视，可拦截不该外流的内容。审阅闸门同时是质量闸门和合规闸门，这是设计时未必显式意识到、但真实存在的双重收益。

§7 对手框架回应

接受 + 边界，不是反驳。

对手立场一（业界自动化派，如 agentic workflow 的乐观叙事）：「人在回路是过渡态，终极目标是端到端自动知识生产，审阅会被更强的 agent 内化掉。」

接受：随模型能力提升，可形式化的审阅（结构检查、引用核验、事实接地）确实会越来越多地被自动化吸收——本工厂的 grounding agent 和 critique agent 正是证据，这个方向是对的。
边界：但价值终审依赖当事人的目标函数（Rick 的求职诉求、思维训练偏好、默会审美），它不是「更强的模型」能解决的，而是「模型不知道你要什么」的结构性问题。即使 AGI 也无法替你决定「这条知识对你此刻是否重要」，除非它先成为你。所以审阅不会归零，它会上移到一个更难自动化的层。赌注：未来 2–3 年，知识生产的人类劳动占比会下降，但人类劳动的「单位价值」会上升，净效应是「少而精的终审」取代「多而杂的生产」。

对手立场二（Rick 未读的对手框架 · 分析式自我民族志的 Leon Anderson, 2006）：Anderson 在 “Analytic Autoethnography”（Journal of Contemporary Ethnography, 35(4), 373–395, DOI:10.1177/0891241605280449，已核实）中提出，纯叙事式的自我观察缺乏分析性理论建构，容易沦为「只有个人故事、无可迁移洞见」。

接受：这正是悬在本节点头上的剑——把「Rick 的 workflow」写成「Rick 真厉害」的个人故事，就是 Anderson 批评的失败模式。本节点必须产出可迁移的判断（§5 的四个坑对任何做 AI 知识生产的人都成立），而非个人传记。
边界：但 Anderson 的「分析性」要求也有其代价——Ellis & Bochner 反批它用实证主义框架约束了本质上后现代的实践。本节点的取舍是：可观察处做分析（skill 设计史、vault 协议、评级分布是硬数据），需内省处留模板（〔Rick 待填〕），既不滑向纯叙事，也不替当事人编造内省数据冒充分析。这是对 Anderson「Dialogue with Informants」特征（与被研究者对话而非自我独白）的诚实落地——这里的 informant 就是 Rick 本人，模板是与他对话的接口。

failure scenario 显式标注：本节点的主轴（审阅是新瓶颈）在一个场景下会失效——当知识生产的目标是『一次性消费、不入长期库』时（比如查一个事实、要一段临时文案），审阅成本可以接近零，生产力框架反而成立。本节点的判断只在「知识要沉淀进可演进的长期库」这一前提下成立。

confirmation-bias 砍除：本节点早期论证倾向于把 Rick 的所有工程化动作都读作「对审阅瓶颈的自觉应对」，这是 bias——更诚实的补充反例是：三步 ingestion 协议、12→5 agent 塌缩，未必是 Rick 为「测量生产-审阅配比」而设计的，更可能是出于「不想让 AI 弄脏 vault」「架构美感」等其他动机，事后才被本节点诠释成配比治理。这个动机归因正属于不可观察的内省部分，已在 §8 留作待填，不替他断言。

§8 〔Rick 待填〕内省数据接口

以下是本节点无法观察、必须由 Rick 一手填写的部分。绝不替他编造。

[!question] 〔Rick 待填：审阅行为的一手数据〕

配比的真实感受：当本工厂一个批次吐出几十个草稿时，你花在「读草稿 + 判断去留」上的时间，相对你过去自己写一篇笔记的时间，主观上是多了还是少了？审阅让你更轻松还是更累？

终审的内部标准：§5 坑 4 说「价值终审只有你能下」。你审一篇 AI 草稿决定 move 还是弃的那一刻，脑子里实际在比对什么？是否能说出一条你自己的「价值线」，还是它至今是默会的、说不清的？

SABCD 评级时的边界模糊：14 条 S 级 vs 182 条 C 级之间，有没有让你犹豫很久、反复改评级的条目？犹豫点在哪？

三步协议的执行摩擦：_ai_review 沙盒在实际操作中，是真的每篇都审了才 move，还是有时积压/跳过？哪条原则最容易被你自己绕过？

动机归因（回应 §7 bias 砍除）：12→5 agent 的塌缩、三步 ingestion 的设计，当时的真实驱动是什么——配比治理、不想弄脏 vault、架构美感、还是别的？请如实写，本节点不替你断言。

这些问题的存在本身就是数据：它们标出了「AI 化知识生产中，哪些环节至今仍是纯人类默会判断、连当事人都未必能形式化」的精确边界。

§9 PM 决策启示

面试怎么用：当被问「你怎么用 AI 提效」，不要答「我用 AI 多产出了 X」。答「我发现 AI 化把瓶颈从生产搬到了审阅，所以我设计了一套三步审阅闸门 + 多 agent 对抗式同行评议，把审阅本身工程化」——这是从「使用者」到「流程设计者」的身份跃迁，正是 AI PM 的差异化。
选型怎么用：评估任何「AI 内容生产工具」时，别比产出能力（会被商品化），比它「降低人类终审边际成本」的能力——有没有 grounding 校验、价值排序、审阅分层。这是 §6 商业模式判断的选型化。
复现怎么用：搭自己的 AI 知识生产流水线时，第一件事不是配生产 agent，是配审阅闸门（沙盒 + 分层校验 + 价值终审位）。先建闸门再建产线，否则你会被自己的产出淹死。

§10 与已有节点的关系

对照 0418 审阅瓶颈专题：本节点对它做深化 + 一手数据供给。0418 把「审阅是新瓶颈」立为专题主轴；本节点用 Rick 的 vault 协议、专题工厂、SABCD 评级分布提供「这条判断在一个极端 power user 身上的实证切面」，并把审阅瓶颈具体定位到「价值终审不可外包」这一不可形式化的核心。Rick 的审阅行为是 0418 的一手数据来源，本节点是采集它的接口。
对照 Skill 系统的本质：本节点对它做应用 + 边界补缺。前者讲 skill 作为 procedural knowledge 封装的本质；本节点指出 deep-survey 这类 skill 的能力边界——它能封装「可言说的生产劳动」，封装不了「默会的判断劳动」，后者必须留在审阅端。
对照 Polanyi 默会知识与提示工程的认识论张力：本节点对它做对话 + 落地。前者讲默会知识与提示工程的认识论张力；本节点把这条张力落到具体流程——它从认识论上解释了「为什么三步审阅闸门必须存在、且不会被更强的模型消除」。
对照 AI 记忆过拟合与泛化能力与 Claude routines 调研与 memory allowlist 设计：本节点对它们做呼应。两者展示 Rick 在 memory 端的工程化治理（过拟合诊断、allowlist 转型），与本节点的审阅闸门是同一种「为 AI 协作设计治理结构」的思维在不同环节的体现。

[!note] 与 0414 / 0422 的显式升级对照与 0414（Claude Code 体感） 对照：0414 记录「使用 AI 工具的一手体感」，本节点升一层——不止记录体感，而是把体感背后的「劳动配比重构」抽象为可迁移判断，并标出哪些体感至今无法形式化（§8 待填）。与 0422（民族志方法） 对照：0422 提供方法论框架，本节点是该方法的一次实操——它演示了「可观察处做分析、需内省处留模板」的自我民族志诚实操作（呼应 Anderson 2006 的 Narrative Visibility 与 Dialogue with Informants 两特征：研究者可见、且与被研究者对话而非独白）。

§11 关联节点

核心（必读）

0418 审阅瓶颈专题 — 本节点的判断主轴所属专题，Rick 审阅行为是其一手数据
Skill 系统的本质 — deep-survey 的能力与边界由此理解
Polanyi 默会知识与提示工程的认识论张力 — 审阅闸门的认识论必然性
PKM 设计哲学与演化史 — 12→5 agent 塌缩、vault 协议演化史的原始记录

延伸（可选）

AI 记忆过拟合与泛化能力 — memory 端的工程化治理，同思维不同环节
Claude routines 调研与 memory allowlist 设计 — allowlist 转型，治理结构设计的另一切面
旅行规划 Skill 套件系统设计 — skill 工程化的同构案例
trip-structure skill — over-design → 收敛的 skill 迭代轨迹
AI PM 知识图谱框架设计 — Rick 框架操控行为的另一样本
AI PM 知识图谱·总索引 — 上级总索引

修订日志

R1 (2026-06-07)：首稿。建立「生产-审阅配比测量」框架；三样本（deep-survey / vault 协议 / 专题工厂）；判断主轴四坑四件套；接受+边界对手回应（自动化派 + Anderson 2006 分析式自我民族志）；failure scenario + bias 砍除各一处；与 0414/0418/0422 + Skill 系统的本质 + Polanyi 默会知识与提示工程的认识论张力显式升级对照；§8 留 5 项 〔Rick 待填〕 内省接口，不编造内省数据。待核实项：Anderson 2006 DOI 已在方法接地证据中标注核实，本稿沿用。