E02 知识生产 Workflow 剖解·deep-survey 与本 vault
当一个 PM 把自己的知识生产流程外包给一群 agent 之后,他到底还在干什么?这是本节点要拆的问题。视角是「把 Rick 的知识生产 workflow——deep-survey skill、本 PKM vault 的三步策展协议、以及你正在读的这套『专题工厂』流水线——当作一个真实可观察的自我民族志样本」,用一条判断主轴贯穿:知识生产的 AI 化没有消灭人的劳动,它只是把劳动的重心从『生产』暴力地搬到了『审阅』,而这个新配比,绝大多数人既没测量过、也没为它设计过工具。
§0 为什么是这个框架而不是那个
分析「AI 辅助知识生产」时有两个默认框架要先挡掉。
第一个是生产力框架:把 AI 当成一个产出放大器,问题简化为「同样时间能多产出几篇笔记/几份报告」。这个框架的盲点是它假设产出是瓶颈。但只要你真的让 agent 跑起来——本工厂一个批次就能吐出几十个节点草稿——你会立刻发现瓶颈根本不在产出端,而在「这几十篇里哪些值得入库、哪些是言之凿凿的编造、哪些跨域呼应是空喊」的判断端。生产力框架测错了变量。
第二个是自动化框架:把目标设成「让 AI 全自动产出可用知识,人退出回路」。这个框架的盲点是它把「人在回路」当成过渡态的临时成本,而非稳态结构。本节点的反共识立场恰恰相反:人在回路不是 bug,是这个流水线唯一的价值锚点;agent 越强,回路里那个做最终判断的人就越重要,而不是越可有可无(0418 审阅瓶颈专题 把这条单独立为专题主轴)。
所以本节点采用的框架是**「生产-审阅配比测量」框架**:不问「AI 能产出多少」,而问「当产出变得近乎免费,一个知识工作者的时间实际被重新分配到了哪里,这个分配是否被设计过、被测量过、被工具支撑过」。这恰好是自我民族志的强项——它要求研究者把自己作为研究对象(Anderson 2006 的 Complete Member Researcher 特征),而 Rick 既是这套 workflow 的设计者,又是唯一的审阅者,是观察这个配比的完美样本。
§1 三个样本:deep-survey、vault 协议、专题工厂
本节点的接地来源不是外部论文,而是 Rick 的 vault 真实产物和正在运行的本工厂。先界定三个可观察的样本。
| 样本 | 性质 | 可观察证据 | 在「生产-审阅」轴上的位置 |
|---|---|---|---|
| deep-survey skill | 一个把「领域综述长文 + EPUB 打包」工程化的 skill | skill 描述要求正文 ≥1.5 万字、QA 自检、承重图示、中文输出 | 高度自动化生产端;审阅前置进 skill 的 QA pass |
| 本 vault 三步 ingestion 协议 | vault 根 CLAUDE.md 原则四:AI 产出先入 _ai_review/ 沙盒 → Rick 审阅 → move | 协议文本可查;99Archive/_ai_review/ 目录真实存在并正被本工厂使用 | 显式的审阅闸门;把审阅制度化为一道不可绕过的关卡 |
| 本「专题工厂」(0412–0423 系列) | 多 agent 流水线:ground→draft→critique→revise→verify→synthesize | 本节点本身就是该流水线的产物;改稿档案留在 _topic_factory/ | 极端自动化生产 + 极端制度化审阅的组合实验 |
这三者构成一个递进:deep-survey 把「单篇生产」工程化;vault 协议把「审阅」制度化;专题工厂把两者组装成一条多 agent 流水线,并用对抗式同行评议(§10 of SHARED_CONTEXT)替代单人审阅的一部分。三个样本里,审阅都不是事后补救,而是被前置、被分层、被制度化的核心环节——这本身就是对「生产力框架」的实践性反驳。
§2 deep-survey:把综述生产压成可重复的 skill
deep-survey 是观察「生产端自动化到什么程度」的最好切片。它的 skill 描述(可在本环境 skill 列表中查到原文)把一项原本需要数天的工作——综述型领域地图 ≥1.5 万字、专题型按深度自定篇幅——压成一个可触发的过程。关键不在「它能写多长」,而在它把哪些人类判断显式编码进了 skill:承重图示(structural diagram)、QA 自检、综述型 vs 专题型的选题分流。
这是 Rick 典型的工程化动作,和他设计 trip 套件(旅行规划 Skill 套件系统设计)、trip-structure skill 的手法同构:把 procedural knowledge 文档化封装,而非每次重新口头指挥。但 deep-survey 暴露了一个生产端自动化的硬边界——skill 能保证「结构齐备、长度达标、有自检」,却无法保证「判断密度」和「事实不编造」。这两件正是 SHARED_CONTEXT §1 的 A 维(判断密度)和 §8(事实接地)所盯的,也正是 skill 自动化覆盖不到、必须靠审阅端兜底的部分。换句话说,deep-survey 把生产端的「形式劳动」自动化了,却把「判断劳动」原封不动地推给了下游的审阅者。
§3 vault 三步协议:把审阅制度化为闸门
如果 deep-survey 代表生产端,本 vault 的三步 ingestion 协议就代表审阅端的制度化。vault 根 CLAUDE.md 原则四规定:AI 产出一律先写入 _ai_review/ 沙盒,Rick 审阅后才 move 到主区。本节点此刻就躺在 99Archive/_ai_review/0423-autoethno/ 里,是这条协议的活样本。
这道闸门做了三件在业界 AI-augmented PKM 中少见的事:
- 写权限隔离:agent 默认没有污染 vault 主区的权限,等同于工程上的 staging 环境。AI 的产出在被人类判断「确认有价值」之前,不被承认为知识库的一部分。
- 审阅被显式标价:每篇草稿 frontmatter 带
final_path:,意味着「这篇打算去哪」是产出时就要声明、审阅时要核验的一项,而不是含糊的「以后整理」。 - 审阅触发分层(原则六,三层产物体系):拒绝「周报/月报」的时间周期概念,改为按触发条件判断何时复盘。这把审阅从「定期仪式」改成了「事件驱动」。
这三件事合起来的含义是:Rick 在制度层面承认了审阅是稀缺资源,并为它设计了专门的容器。这正是 §0 反共识立场的落地——他没有把人在回路当过渡成本去消除,而是给它盖了一座专门的关卡。
[!note] 跨域呼应 · Polanyi 默会知识 Polanyi 默会知识与提示工程的认识论张力 指出:能被显式编码进 prompt/skill 的,恰恰是知识里「可言说」的那一层;真正的判断力——「这篇好在哪、这条引用我凭直觉觉得不对」——大量驻留在默会层,无法前置进 skill。这就从认识论上解释了为什么三步协议必须存在:deep-survey 能把可言说的生产劳动自动化,但默会的判断劳动必须留在审阅端由人来承担。审阅闸门不是 Rick 不信任 AI,而是默会知识的认识论结构决定了它只能在审阅端兑现。这条呼应不是装饰——它把「为什么要有沙盒」从工程偏好升级成认识论必然。
§4 专题工厂:审阅劳动本身被再次拆解外包
最值得剖的样本是你正在读的这套流水线。专题工厂把单人审阅的一部分,进一步拆解并外包给了一组批评 agent:ground(事实接地 agent)→ draft(写作 agent)→ critique(按 S/A/B/C/D/E 六维找茬的批评 agent)→ revise → verify(独立 grounding 校验 pass)→ synthesize。
这是一个值得停下来看的 meta 现象:当审阅成为新瓶颈,Rick 的反应不是「我亲自审更多」,而是「把审阅也部分工程化」。批评 agent 的默认立场被设成「找茬」而非「礼貌肯定」(SHARED_CONTEXT §10),grounding 校验被设成独立 pass 逐条判定「已接地/需接地/疑似编造」。这等于在流水线内部又复制了一遍「生产-审阅」结构:草稿是生产,critique 是审阅,而 Rick 退到了审阅之审阅的位置——他不再逐句审每篇草稿,而是审「这套批评机制本身是否在正确地找茬」。
但这里有一条不能越过的边界,必须诚实标注:批评 agent 能审的是『判断密度够不够、引用查不查得到、跨域呼应是不是空喊』这类可形式化的质量维度;它审不了『这个判断对 Rick 的求职/思维训练是否真的有价值』这类只有当事人能下的终审。 后者依然是 Rick 不可外包的核心审阅劳动。流水线把审阅劳动「降维」了——把可形式化的部分外包,把不可形式化的终审收缩到一个更高、更稀缺的点。这恰好印证了 §0 的主轴:AI 化没有消灭审阅劳动,它把审阅劳动的配比从「逐篇全审」重构成「机器初审 + 人类终审」,而人类那一档不降反升。
§5 判断主轴:生产-审阅配比上 90% 的人会踩的四个坑
这是本节点的命门。把「知识生产 AI 化」做砸,几乎都砸在对生产-审阅配比的误判上。四个坑,每个带症状 → 为什么会错 → 正确做法 → 真实反例。
坑 1:把产出量当成进度。
- 症状:「今天 agent 跑出了 40 个节点草稿,进度很好。」
- 为什么会错:草稿在三步协议里还没 move,等于 staging 里的未验证代码,进度是假的。把生产量当进度,是用最不稀缺的资源(产出)冒充最稀缺的资源(已审阅确认的知识)。
- 正确做法:进度只按「通过审阅闸门、move 到 final_path 的节点数」计。生产量是输入,不是产出。
- 真实反例:本工厂
99Archive/_README.md记录的 Phase 1 SABCD 评级分布(S:14 / A:103 / B:194 / C:182)——493 条里只有 14 条 S 级。如果按「生产了 493 条」记进度,会严重高估实际知识增量;真正的增量是审阅评级后的那一小撮高价值条目。
坑 2:把审阅当成事后补救,不为它留预算。
- 症状:「先让 agent 全产出,最后我一次性 review。」
- 为什么会错:审阅劳动随产出量线性甚至超线性增长。一次性堆到最后,审阅者面对的是一座言之凿凿、真假混杂的内容山,单条核验成本(查每个 arXiv ID、每个引用)高到事实上无法完成,结果要么放弃审阅(编造混入库),要么放弃产出。
- 正确做法:把审阅前置、分层、制度化——deep-survey 的 QA pass 前置一道,grounding 校验独立一道,critique agent 一道,Rick 终审一道。审阅成为流水线内建环节而非末端补丁。
- 真实反例:本节点的写作约束本身——「arXiv ID 必须 WebFetch 验证或标〔待核实〕」「双链只用确认存在名」——就是把审阅纪律前置到生产指令里,不让编造有机会进入草稿。
坑 3:以为 agent 越多,人就越省心。
- 症状:「上 12 个 agent,覆盖所有角色,我就不用管了。」
- 为什么会错:每多一个 agent,就多一个需要被审阅其输出质量的来源,审阅的对象从「内容」上升到「机制」,认知负荷反而上移。
- 正确做法:只为「真正需要独立 context 隔离」的环节设 agent,其余收为 skill。判别要有显式框架。
- 真实反例:Rick 自己的 vault AI 协作架构演化史(PKM 设计哲学与演化史 可查)——2026-05-18 定型 12 角色 v1.3,2026-05-21 他主动发起「12 agent 是否 over-engineering」的挑战,用 A/B/C/D 判别框架(只有真需要独立 context 隔离的保留为 agent)把架构塌缩为 5 sub-agent + 6 skill 的 v1.4。这是「agent 越多越省心」假设被当事人亲手证伪的直接证据。
坑 4:把『可形式化的质量』当成『价值』的全部。
- 症状:「critique agent 给了六维高分,这篇就是好节点。」
- 为什么会错:六维(结构/判断密度/边界/认识论/可演进/对手拷问)测的是「合格」,不是「对这个人此刻是否有价值」。一篇六维满分但与 Rick 的求职底料和思维训练无关的节点,是高质量的噪声。
- 正确做法:保留一道机器测不了的人类终审——价值判断。这道审阅不可外包,且正是 AI 化之后人类审阅的新核心。
- 真实反例:本专题作为「方法专题」,研究对象是 Rick 本人独一无二的 AI 使用模式,没有外部竞争者也没有现成 benchmark——它的价值高低只有 Rick 能终审,任何批评 agent 都无从代劳。这恰是本专题刻意留
〔Rick 待填〕模板而非替他编造的根本原因。
§6 产品 PM 视角补盲
跳出「工程化流水线」视角,补三个 PM 容易看走眼的点。
- 用户心理模型:如果把这套 workflow 当产品卖给其他知识工作者,最大的误判是假设用户「想要更多产出」。真实痛点是审阅焦虑——面对 AI 产出的内容山,用户的心理负担是「我怎么知道哪些可信」。产品价值主张应该是「降低审阅成本」而非「提高产出量」。这与 0418 审阅瓶颈专题 把审阅立为专题主轴是同一判断的产品化表达。
- 商业模式:审阅劳动是稀缺资源意味着,AI 知识生产工具的护城河不在「能产出」(这会被快速商品化),而在「能多大程度降低人类终审的边际成本」——比如 grounding 自动校验、价值优先级排序。卖产出量的工具会陷入价格战;卖审阅杠杆的工具才有定价权。
- 合规边界:本 vault 处理 DiDi 内部材料(见 Rick 的记忆 didi-confidential-local-only),三步 ingestion 的沙盒隔离顺带提供了一道合规价值——AI 产出在进入主库前有一道人类检视,可拦截不该外流的内容。审阅闸门同时是质量闸门和合规闸门,这是设计时未必显式意识到、但真实存在的双重收益。
§7 对手框架回应
接受 + 边界,不是反驳。
对手立场一(业界自动化派,如 agentic workflow 的乐观叙事):「人在回路是过渡态,终极目标是端到端自动知识生产,审阅会被更强的 agent 内化掉。」
- 接受:随模型能力提升,可形式化的审阅(结构检查、引用核验、事实接地)确实会越来越多地被自动化吸收——本工厂的 grounding agent 和 critique agent 正是证据,这个方向是对的。
- 边界:但价值终审依赖当事人的目标函数(Rick 的求职诉求、思维训练偏好、默会审美),它不是「更强的模型」能解决的,而是「模型不知道你要什么」的结构性问题。即使 AGI 也无法替你决定「这条知识对你此刻是否重要」,除非它先成为你。所以审阅不会归零,它会上移到一个更难自动化的层。赌注:未来 2–3 年,知识生产的人类劳动占比会下降,但人类劳动的「单位价值」会上升,净效应是「少而精的终审」取代「多而杂的生产」。
对手立场二(Rick 未读的对手框架 · 分析式自我民族志的 Leon Anderson, 2006):Anderson 在 “Analytic Autoethnography”(Journal of Contemporary Ethnography, 35(4), 373–395, DOI:10.1177/0891241605280449,已核实)中提出,纯叙事式的自我观察缺乏分析性理论建构,容易沦为「只有个人故事、无可迁移洞见」。
- 接受:这正是悬在本节点头上的剑——把「Rick 的 workflow」写成「Rick 真厉害」的个人故事,就是 Anderson 批评的失败模式。本节点必须产出可迁移的判断(§5 的四个坑对任何做 AI 知识生产的人都成立),而非个人传记。
- 边界:但 Anderson 的「分析性」要求也有其代价——Ellis & Bochner 反批它用实证主义框架约束了本质上后现代的实践。本节点的取舍是:可观察处做分析(skill 设计史、vault 协议、评级分布是硬数据),需内省处留模板(
〔Rick 待填〕),既不滑向纯叙事,也不替当事人编造内省数据冒充分析。这是对 Anderson「Dialogue with Informants」特征(与被研究者对话而非自我独白)的诚实落地——这里的 informant 就是 Rick 本人,模板是与他对话的接口。
failure scenario 显式标注:本节点的主轴(审阅是新瓶颈)在一个场景下会失效——当知识生产的目标是『一次性消费、不入长期库』时(比如查一个事实、要一段临时文案),审阅成本可以接近零,生产力框架反而成立。本节点的判断只在「知识要沉淀进可演进的长期库」这一前提下成立。
confirmation-bias 砍除:本节点早期论证倾向于把 Rick 的所有工程化动作都读作「对审阅瓶颈的自觉应对」,这是 bias——更诚实的补充反例是:三步 ingestion 协议、12→5 agent 塌缩,未必是 Rick 为「测量生产-审阅配比」而设计的,更可能是出于「不想让 AI 弄脏 vault」「架构美感」等其他动机,事后才被本节点诠释成配比治理。这个动机归因正属于不可观察的内省部分,已在 §8 留作待填,不替他断言。
§8 〔Rick 待填〕 内省数据接口
以下是本节点无法观察、必须由 Rick 一手填写的部分。绝不替他编造。
[!question] 〔Rick 待填:审阅行为的一手数据〕
- 配比的真实感受:当本工厂一个批次吐出几十个草稿时,你花在「读草稿 + 判断去留」上的时间,相对你过去自己写一篇笔记的时间,主观上是多了还是少了?审阅让你更轻松还是更累?
- 终审的内部标准:§5 坑 4 说「价值终审只有你能下」。你审一篇 AI 草稿决定 move 还是弃的那一刻,脑子里实际在比对什么?是否能说出一条你自己的「价值线」,还是它至今是默会的、说不清的?
- SABCD 评级时的边界模糊:14 条 S 级 vs 182 条 C 级之间,有没有让你犹豫很久、反复改评级的条目?犹豫点在哪?
- 三步协议的执行摩擦:
_ai_review沙盒在实际操作中,是真的每篇都审了才 move,还是有时积压/跳过?哪条原则最容易被你自己绕过?- 动机归因(回应 §7 bias 砍除):12→5 agent 的塌缩、三步 ingestion 的设计,当时的真实驱动是什么——配比治理、不想弄脏 vault、架构美感、还是别的?请如实写,本节点不替你断言。
这些问题的存在本身就是数据:它们标出了「AI 化知识生产中,哪些环节至今仍是纯人类默会判断、连当事人都未必能形式化」的精确边界。
§9 PM 决策启示
- 面试怎么用:当被问「你怎么用 AI 提效」,不要答「我用 AI 多产出了 X」。答「我发现 AI 化把瓶颈从生产搬到了审阅,所以我设计了一套三步审阅闸门 + 多 agent 对抗式同行评议,把审阅本身工程化」——这是从「使用者」到「流程设计者」的身份跃迁,正是 AI PM 的差异化。
- 选型怎么用:评估任何「AI 内容生产工具」时,别比产出能力(会被商品化),比它「降低人类终审边际成本」的能力——有没有 grounding 校验、价值排序、审阅分层。这是 §6 商业模式判断的选型化。
- 复现怎么用:搭自己的 AI 知识生产流水线时,第一件事不是配生产 agent,是配审阅闸门(沙盒 + 分层校验 + 价值终审位)。先建闸门再建产线,否则你会被自己的产出淹死。
§10 与已有节点的关系
- 对照 0418 审阅瓶颈专题:本节点对它做深化 + 一手数据供给。0418 把「审阅是新瓶颈」立为专题主轴;本节点用 Rick 的 vault 协议、专题工厂、SABCD 评级分布提供「这条判断在一个极端 power user 身上的实证切面」,并把审阅瓶颈具体定位到「价值终审不可外包」这一不可形式化的核心。Rick 的审阅行为是 0418 的一手数据来源,本节点是采集它的接口。
- 对照 Skill 系统的本质:本节点对它做应用 + 边界补缺。前者讲 skill 作为 procedural knowledge 封装的本质;本节点指出 deep-survey 这类 skill 的能力边界——它能封装「可言说的生产劳动」,封装不了「默会的判断劳动」,后者必须留在审阅端。
- 对照 Polanyi 默会知识与提示工程的认识论张力:本节点对它做对话 + 落地。前者讲默会知识与提示工程的认识论张力;本节点把这条张力落到具体流程——它从认识论上解释了「为什么三步审阅闸门必须存在、且不会被更强的模型消除」。
- 对照 AI 记忆过拟合与泛化能力 与 Claude routines 调研与 memory allowlist 设计:本节点对它们做呼应。两者展示 Rick 在 memory 端的工程化治理(过拟合诊断、allowlist 转型),与本节点的审阅闸门是同一种「为 AI 协作设计治理结构」的思维在不同环节的体现。
[!note] 与 0414 / 0422 的显式升级对照 与 0414(Claude Code 体感) 对照:0414 记录「使用 AI 工具的一手体感」,本节点升一层——不止记录体感,而是把体感背后的「劳动配比重构」抽象为可迁移判断,并标出哪些体感至今无法形式化(§8 待填)。 与 0422(民族志方法) 对照:0422 提供方法论框架,本节点是该方法的一次实操——它演示了「可观察处做分析、需内省处留模板」的自我民族志诚实操作(呼应 Anderson 2006 的 Narrative Visibility 与 Dialogue with Informants 两特征:研究者可见、且与被研究者对话而非独白)。
§11 关联节点
核心(必读)
- 0418 审阅瓶颈专题 — 本节点的判断主轴所属专题,Rick 审阅行为是其一手数据
- Skill 系统的本质 — deep-survey 的能力与边界由此理解
- Polanyi 默会知识与提示工程的认识论张力 — 审阅闸门的认识论必然性
- PKM 设计哲学与演化史 — 12→5 agent 塌缩、vault 协议演化史的原始记录
延伸(可选)
- AI 记忆过拟合与泛化能力 — memory 端的工程化治理,同思维不同环节
- Claude routines 调研与 memory allowlist 设计 — allowlist 转型,治理结构设计的另一切面
- 旅行规划 Skill 套件系统设计 — skill 工程化的同构案例
- trip-structure skill — over-design → 收敛的 skill 迭代轨迹
- AI PM 知识图谱框架设计 — Rick 框架操控行为的另一样本
- AI PM 知识图谱·总索引 — 上级总索引
修订日志
- R1 (2026-06-07):首稿。建立「生产-审阅配比测量」框架;三样本(deep-survey / vault 协议 / 专题工厂);判断主轴四坑四件套;接受+边界对手回应(自动化派 + Anderson 2006 分析式自我民族志);failure scenario + bias 砍除各一处;与 0414/0418/0422 + Skill 系统的本质 + Polanyi 默会知识与提示工程的认识论张力 显式升级对照;§8 留 5 项
〔Rick 待填〕内省接口,不编造内省数据。待核实项:Anderson 2006 DOI 已在方法接地证据中标注核实,本稿沿用。