E03 专题工厂作为多 Agent 协作 Case 剖解

本节点要解决的问题是：当一个人想用”自我民族志”研究自己的 AI 使用模式时，最干净的一手数据从哪里来？ 答案有点自指——正在生产这套笔记的多 Agent 流水线本身，就是 Rick 作为 power user 编排 AI 的一次完整、可观察、带时间戳的现场。本节点的视角/框架名是 “生产即田野（production-as-fieldwork）“：不把”专题工厂”当成产出文章的工具，而是把它当成一个被记录的协作系统切片来剖解——谁决策、AI fleet 怎么分工、哪里失败、怎么修正。这正是 Anderson（2006）分析式自我民族志五特征中第一条 Complete Member Researcher 的标准操作：研究者必须是所研究场域的完整成员，而 Rick 是这条流水线的设计者兼唯一编排者，不存在比他更”完整”的成员。

[!note] 自指风险先标在门口用”专题工厂”研究”Rick 的 AI 编排能力”，存在 Delamont（2007、2012）批评自我民族志时点名的 navel-gazing（自我沉溺） 风险：你既是被观察者、又是观察者、还是观察工具的作者，三重身份叠在一起，很容易把”我设计得真好”当成发现。本节点的防线是 §4 的判断主轴——只分析文件系统、对话存档、时间戳能验证的可观察行为，凡需要 Rick 内省的（信任校准、注意力分配、决策时的犹豫）一律留 〔Rick 待填〕 模板，绝不替他编造。

§0 为什么是”生产即田野”框架，而不是”案例复盘”框架

读者脑中的默认框架大概是”项目复盘”——把专题工厂当成一个已完成的工程，总结 SOP、列经验教训。这个框架要挡掉，因为它会抹掉自我民族志最值钱的东西：研究者的在场可见性。

框架	它会问什么	它会漏掉什么
案例复盘（要避免）	流水线吞吐多少节点？SOP 能不能复用？	编排者 Rick 自己在每个决策点想什么、赌什么
生产即田野（本节点采用）	Rick 在哪些点介入/不介入？AI fleet 哪次跑偏、谁把它拉回来？	不漏——把”人的判断”显式留为数据，留白处不填

Anderson（2006）的第三特征 Narrative Visibility（研究者须在文本中明确可见） 是这里的分水岭：纯案例复盘会写成”流水线做了 X”，把人隐去；生产即田野必须写成”Rick 决定让流水线做 X，因为……（可观察处分析，内省处留白）“。这也是为什么本节点不进 03 架构剖面（那是讲流水线”由什么组成”），而进 04 实例剖解——它剖的是这套系统在一次真实运行中怎么走样、怎么被修正的病理切片。

§1 田野对象的边界：什么算”本次专题工厂”

先把研究对象框死，否则容易把 Rick 全部 AI 使用史都装进来。本节点的田野对象 = 0423 自我民族志专题的多 Agent 生产流水线，其骨架沿用了已入库的 0411 Agent 系统化专题（22 节点、5 轮批判性同行评议）所确立的工程化流程，并由 _topic_factory/0423-autoethno/SHARED_CONTEXT.md（出版级写作宪章 v1）作为不可协商的硬约束。

可观察的流水线分层（来自宪章 §10）：

flowchart LR
  G[ground 接地<br/>方法学者/arXiv 核实] --> D[draft 并行起草<br/>每 Agent 1 模块/数节点]
  D --> C[critique 对抗评议<br/>六维 S/A/B/C/D/E 打分]
  C --> R[revise 修订<br/>按 issue 单 + 修订日志]
  R --> V[verify grounding<br/>独立 Agent 逐条判定]
  V --> S[synthesize 综合<br/>总览 README 双链编织]
  S --> Q[QC 入库自检]
  C -.迭代至收敛.-> R

这条链的关键设计是 write-first（先写后处理）：宪章 §10 明确要求”Round 0 并行起草”在前、“Round N 批评”在后，而不是先评审标准再写。对照 0423 旅行期（2026-04-12~04-23）Rick 在美国南方民权路线上的实际行为——他先在博物馆现场触发 AI 对话并存档（约 40+ 条，存入 99Archive/9910 claude 对话存档/，日期戳 20260412–20260423 可查），后由 Phase 1 批量 pipeline 处理入库——可以看出 write-first 不是这次工厂临时发明的，而是 Rick 一贯的 ingestion 哲学的制度化。

[!note] 一个必须诚实标注的事实问题本节点的核实材料里写”约 40+ 条对话/约 40+ 升格节点”，这些数字来自 grounding agent 的文件系统观察，但我（写作 agent）未独立逐一点验。按宪章 §8，这里降级表述为”据归档统计约 40+“，并标 〔待核实：精确条数以 99Archive/_README.md 的 SABCD 分布为准〕。已知的硬数字只有一条经 Read 确认：99Archive/_README.md 记录 Phase 1 SABCD 分布为 S:14 / A:103 / B:194 / C:182。

§2 编排者的决策：Rick 在哪些点介入

这是本节点的核心数据带——Rick 作为编排者的可观察决策，全部有归档文本或文件系统佐证（详见 §9）。我把它们归成四类介入动作，因为”power user 编排 AI”的能力，恰恰体现在介入的时机与粒度上，而非 prompt 的措辞。

介入动作	可观察证据（来源已确认）	这暴露了什么编排能力
设标准在前	写 `SHARED_CONTEXT.md` 出版级宪章（六维验收线、一票否决项、§8 接地纪律），所有 agent 动笔前必须读	把”质量”从主观感受转成可检验的契约，类似 PM 写 PRD 的验收标准
过拟合诊断	2026-03-23 对话：用 ML 框架（过拟合/泛化）对 AI 记忆做两轮元层干预，第一轮解耦”偏好了解”与”审美能力”，第二轮防”泛化≠平均化”（见 AI 记忆过拟合与泛化能力）	用操作语（ML 术语）给 AI 做认知校正，而非含糊地说”你别这样”
主动塌缩 over-design	2026-05-21 早：Rick 主动提”12 agent 是否 over-engineering”，推动架构从 v1.3（12 角色）塌缩到 v1.4（5 sub-agent + 6 skill），判别依据 A/B/C/D 框架——只有真正需要”独立 context 隔离”的保留为 agent（见 PKM 设计哲学与演化史）	对自己的 AI 系统做奥卡姆剃刀，这是极罕见的元层自检
写权限沙盒隔离	vault 根 CLAUDE.md 原则四：AI 产出一律先入 `_ai_review/` 沙盒，Rick 审阅后才 move	把 AI 当成不可信的协作者做工程隔离，而非盲信

把这四类放在一起看，浮现出一个一致的模式：Rick 编排 AI 的方式，更像一个系统设计者在治理一支不可靠的团队，而不是一个用户在调用一个工具。设标准、诊断认知偏差、砍冗余、隔离权限——这是组织设计的语汇，不是 prompt 工程的语汇。这正是本专题”Rick 是极端 power user”判断的活证据，也为 §13 框架报告（多 Agent 知识生产 SOP）提供了第一手剖面。

§3 AI fleet 的分工与失败-修正现场

如果只写”Rick 决策得好”，就落进了 §0 警告的自我沉溺。自我民族志的诚实要求记录失败——Anderson 第四特征 Dialogue with Informants（与场域中其他成员对话，避免自我独白），在多 Agent 语境里，“其他成员”就是 AI fleet 各角色，它们的跑偏与被纠正是真实可观察的对话痕迹。

已记录的失败-修正轨迹（来源已确认）：

over-design 失败（skill 层）：trip-structure skill 有完整的”over-design → 被 Rick 拉回 → 收敛”轨迹，时间节点 2026-04-03，由 skill-creator 元 skill 重写（见 trip-structure skill）。失败模式：AI 倾向于把输出格式做得过度复杂。修正机制：人类介入 + 元 skill 重构。
over-design 失败（架构层）：v1.3 的 12-agent 架构本身就是 fleet 自我膨胀的产物——2026-05-17 从单 agent 演化到 8→11 角色，2026-05-18 定型 12 角色，直到 2026-05-21 Rick 介入才塌缩。失败模式：Orchestrator 暴露 meta-blind spot——编排者 agent 自己看不到”角色太多”这个问题。修正机制：人类提出挑战 + A/B/C/D 判别框架。
审美过拟合失败（记忆层）：2026-03-23 AI 因记忆积累产生”审美过拟合”，把 Rick 的偏好误当成审美标准。修正机制：ML 术语元层干预两轮。

这三个失败有一个共同结构：AI fleet 的失败模式高度集中在”过度”——过度设计、过度膨胀、过度拟合，而不是”不足”。这与人-AI 交互文献里 Bansal et al.（2021，CHI，arXiv:2006.14779）的反直觉发现遥相呼应：AI 的”解释/输出”倾向于增加而非减少负担——“解释提高了人类采纳 AI 建议的概率，不论建议正确与否”。在本工厂里，对应物是”agent 倾向于增加角色/格式/记忆条目，不论是否必要”。修正者永远是人类的剪枝判断，而这恰恰是过度依赖（overreliance）研究最担心被 AI 接管的那个环节。

[!note] 这条流水线本身就是一个”对抗过度依赖”的装置宪章 §10 要求批评 agent 默认立场是找茬（“这条判断能被证伪吗？引用是真的吗？跨域呼应是空喊吗？”），§8 设独立 grounding agent 逐条判定”已接地/需接地/疑似编造”。这是把 Vasconcelos et al.（2023，CSCW，arXiv:2212.06823，N=731）的”成本-收益框架”工程化：通过对抗评议降低人类验证 AI 产出的认知成本，从而争取”适当依赖（appropriate reliance）“而非过度依赖。Schemmer et al.（2023，IUI，arXiv:2302.02187）把这个构念操作化为 AoR = 正确采纳率 × 正确拒绝率——本工厂的 SABCD 评级 + critique 单，正是 AoR 的土法实现。

§4 判断主轴：用”自指自传”做研究时，90% 的人会在这五点搞错

这是本节点区分”PM 顶刊”与”自夸博客”的命门。把”正在生产笔记的流水线”当数据，有五个高发陷阱，每点带 症状 → 为什么会错 → 正确做法 → 真实反例。

错点 1：把”我设计的系统”等同于”我证明的能力”。

症状：列一堆 agent 角色和 skill，结论”Rick 是顶级 power user”。
为什么会错：设计文档存在 ≠ 设计有效。Anderson 第五特征 Theoretical Commitment 要求从个案上升到可迁移洞见，而堆设计只是描述。
正确做法：只把可观察的有效性证据（失败被修正、over-design 被砍掉并跑通）当能力证据，把”设计存在”降级为”意图证据”。
真实反例：12-agent v1.3 是 Rick 设计的，但它恰恰是 over-engineering 的证据，不是能力的证据；能力体现在他事后砍掉它。

错点 2：把 AI fleet 的产出当成 Rick 的内省数据。

症状：写”Rick 在 review diff 时感到效率提升”。
为什么会错：这是 fleet 或写作者替 Rick 编造感受，触犯本任务最硬的红线，也是 Delamont 批评自我民族志”把虚构当数据”的活靶子。
正确做法：信任校准、注意力分配、决策时的犹豫——全部留 〔Rick 待填〕（见 §5）。
真实反例：人-AI 信任文献（Lee & See，2004，Human Factors；4170+ 引用）整个建立在”信任是主观状态需被测量”之上——它不能从行为日志反推，必须由当事人自报。

错点 3：把 write-first 流水线的”高吞吐”当成”高质量”。

症状：用”一次跑出 N 个节点”证明系统优越。
为什么会错：吞吐是 usage log 能测的行为指标，质量是 grounding/critique 才能测的语义指标，二者正交。OpenRouter（2026）那种”100 万亿 token”规模研究的代表性 vs 深度问题，就是这个错的宏观版。
正确做法：质量证据只采信”通过六维验收线（综合 ≥7.8）+ 0 处疑似编造”的 grounding pass 结果。
真实反例：本节点自己的”40+ 条对话”数字就因未独立核验而被降级为〔待核实〕——吞吐数字最不可信。

错点 4：用流水线的”成功叙事”掩盖 selection bias。

症状：只剖解被升格入库的节点，不提被评 C/被丢弃的对话。
为什么会错：_README.md 的 SABCD 分布是 S:14 / A:103 / B:194 / C:182——C 级 182 条几乎和 B 级持平，只看 S/A 就是幸存者偏差。
正确做法：把”什么被丢弃、为什么”也当数据。这正是宪章 §7 要求的 confirmation-bias 砍除清单。
真实反例：宪章 §7 自带反例机制——“本专题早期反复引 X 作为正面案例，这是 bias，补入反例 Y”。

错点 5：把”自我民族志”当成不需要对手的方法。

症状：“研究对象是 Rick 本人，独一无二，无竞争者，所以不需要对手框架。”
为什么会错：无竞争者 ≠ 无对手立场。Delamont/Walford 对整个方法的”缺乏严谨性/navel-gazing”批评，就是必须正面接住的对手（见 §6）。
正确做法：用方法论层的对手（而非内容层的竞品）来逼问。
真实反例：Ellis & Bochner（2000）用 verisimilitude（栩栩如生性）、Richardson 用 crystallization（水晶化）作为替代效度标准，恰恰是因为他们知道实证主义者会攻击效度——回应对手是该方法的内置环节。

§5 产品 PM 视角补盲 + 〔Rick 待填〕结构化模板

跳出”工程 PM”视角，本节点最大的产品启示是：一个真正可信的”AI 协作能力”画像，必须同时包含可观察行为层和不可观察内省层，二者缺一不可。光有行为日志（usage log）会漏掉意图与情境；光有自报会有社会期望偏差。本工厂提供了前者的现成数据，后者必须由 Rick 亲填——这是自我民族志区别于纯日志分析的认识论本质，也是本节点诚实交付的核心。

以下是为 Rick 准备的内省补充模板（绝不代填）。每项配一个引导问题，降低回忆成本（参考 Li et al. 2024 DiaryHelper，arXiv:2404.19738，AI 辅助情景记忆五维：时间/地点/人物/行为/感受）：

[!quote] 〔Rick 待填 1：write-first 的决策体感〕引导问题：旅途中你”先产出原始对话、后批量处理”，与”实时整理每条”相比，当时的认知负担差异是什么？是刻意为之的策略，还是当时没空只能这样？

[!quote] 〔Rick 待填 2：SABCD 评级的内部标准〕引导问题：14 条 S 级和 182 条 C 级之间，你自己的价值判断尺子是什么？评级时哪些对话让你犹豫（该 B 还是该 C）？犹豫点本身就是你审美标准的边界。

[!quote] 〔Rick 待填 3：12→5 塌缩的真实驱动〕引导问题：v1.4 塌缩，是认知疲劳（角色太多记不住）、架构美感（看着别扭）、还是纯效率（跑得慢）驱动？三者权重大概各占多少？

[!quote] 〔Rick 待填 4：三步 ingestion 的执行摩擦〕引导问题：_ai_review 沙盒 → 审阅 → move 这套流程，实际操作中哪一步最容易被你跳过？跳过时你在赌什么（赌 AI 这次不会出错？）？

[!quote] 〔Rick 待填 5：AI 作为田野扩展器〕引导问题：在博物馆现场即时向 AI 提问-分析，改变了你旅行的深度或方向感吗？是让你看得更深，还是让你少了独自凝视的时刻？

这五个留白不是偷懒，而是方法论立场——它们标出了”可观察”与”需内省”的精确边界。一个替 Rick 填了这些的版本，会更”完整”，但会是虚构。

§6 对手框架回应：接受 navel-gazing 批评 + 标注边界

接受的部分： Sara Delamont（加的夫大学，2007、2012）称自我民族志”缺乏学术严谨性、是学术性的自我沉迷”，Geoffrey Walford 质疑个人叙事有变成”虚构”的风险——这两条批评对本节点完全成立的部分是：如果本节点替 Rick 编造内省数据、只剖成功节点、把设计当能力，它就是教科书级的 navel-gazing。这正是为什么 §4 的五个错点、§5 的五处留白被设为硬约束。

坚持的边界与赌注： 我赌的是——当研究对象本身是”一个人如何编排 AI”这种极端个案、且不存在可比对象时，自我民族志不是次优选择，而是唯一能触达的方法。Lead user 研究（von Hippel，1986，The Sources of Innovation）的整个合法性，就建立在”极少数领先用户身上有不成比例的信息价值”之上——Rick 作为 AI power user 正是这种 lead user，对他的深描比对一千个普通用户的问卷更能预示 AI 协作工具的演化方向。边界在于：本节点的结论是 N=1，“个案 ≠ 普遍规律”必须每次重申；它能产出的是”可迁移的假设”（如”AI fleet 的失败集中在过度而非不足”），而非”已验证的定律”。

引入 Rick 未读的对手框架（破 echo chamber）：

Leon Anderson 的分析式自我民族志（2006，Journal of Contemporary Ethnography, 35(4): 373–395）——这是对 Rick 熟悉的 Ellis/Bochner 唤起式路线的内部修正派。Anderson 会批评：本节点若只停在”剖解一次有趣的协作”，缺了第五特征 Theoretical Commitment（理论建构），就只是好故事不是研究。回应：§3 的”失败集中在过度”、§4 的五个错点，就是在向可迁移理论努力。
Parasuraman & Manzey 的 automation complacency（2010，Human Factors，1096+ 引用）——他们的硬结论是”自动化偏差训练和指令均无法消除，专家新手都中招”。这对本工厂是直接威胁：宪章设了那么多 critique/grounding agent，能消除 Rick 对自己 AI 系统的 complacency 吗？回应：不能完全消除，但把”剪枝判断”留在人类手里（§3）、把内省留白（§5），是承认这条边界后的减灾设计，不是宣称免疫。

§7 跨域呼应：Polanyi 默会知识 × “可观察 / 需内省”的认识论边界

本节点调度的跨域资源是 Michael Polanyi 的默会知识（tacit knowledge），具体展开它如何改变本节点的判断（链入 Polanyi 默会知识与提示工程的认识论张力）。

Polanyi 的命题”我们知道的比我们能说出来的多（we know more than we can tell）“，精确地切中了本节点的方法论困境。Rick 编排 AI 的能力里，可观察层（设标准、砍 over-design、隔离权限）是已经被”言说”出来的显性知识——它们留下了文件、对话、时间戳，所以能被本节点如实剖解。但 Rick 评级时的犹豫、信任某个 agent 输出时的直觉、决定跳过审阅时的赌注——这些是 默会的，它们之所以必须留 〔Rick 待填〕，不是因为没记录，而是因为 Polanyi 意义上它们原则上难以被外部观察者还原。

这个跨域呼应改变了本节点的核心判断：它把”留白”从”数据缺口（缺憾）“重新定义为”认识论边界（诚实）“。一个声称完整还原了 Rick AI 协作能力的版本，恰恰违背了 Polanyi——它假装默会知识可以被旁观者外化。本节点拒绝这种假装，正是它认识论自觉的所在。这也与 Skill 系统的本质形成对话：skill 是”把 procedural/默会知识文档化封装”的尝试，而本节点揭示了封装的残余——总有一层（编排者的判断校准）封装不进 skill，只能由当事人自报。

§8 PM 决策启示：面试 / 选型 / 复现三类落地

面试怎么用：当被问”你怎么用 AI”时，不要展示 prompt 技巧；展示这套流水线的治理结构——write-first、对抗评议、grounding pass、over-design 主动塌缩。区分点不是”会用工具”，而是”把 AI 当不可靠团队来组织设计”。一句话钩子：“我对自己的 AI 系统做过奥卡姆剃刀，把 12 个 agent 砍到 5 个。”
选型怎么用：评估任何”多 Agent / AI 协作”产品时，照本节点 §3 的失败结构去拷问——它的剪枝判断在谁手里？ 如果产品把”增加 agent/记忆/解释”当卖点而没有对应的砍除机制，按 Bansal 2021 的规律，它大概率在制造过度依赖而非互补。
复现怎么用：要复现”可信的 AI 协作能力画像”，照 §5 的双层模板做——可观察层抓文件系统/对话存档/usage log，需内省层用 DiaryHelper 式（arXiv:2404.19738）五维引导问题做结构化自报，两层分开标注、绝不混填。

§9 与已有节点的关系（显式升级对照）

本节点不复述以下节点的事实基础，只做对照升级：

对 trip-structure skill：该节点记录了 trip-structure 单个 skill 的 over-design→收敛轨迹。本节点做深化——把它从”一个 skill 的迭代史”升格为”AI fleet 失败模式的一个实例”，纳入 §3 的过度-膨胀统一模式。
对 AI 记忆过拟合与泛化能力：该节点剖析记忆过拟合的机制。本节点做对话——把”审美过拟合”放进 §3 的失败三连，论证它与 over-design、架构膨胀同属”AI 倾向于过度”这一更高阶模式。
对 Skill 系统的本质：该节点论证 skill = 默会知识的文档化封装。本节点做纠偏/补缺——§7 指出”封装的残余”：编排者的判断校准封装不进 skill，是 skill 系统的认识论天花板。
对 PKM 设计哲学与演化史：该节点记录 v1.3→v1.4 演化。本节点做纠偏——把”演化”重新框定为”一次 over-design 的失败与人类剪枝修正”，剥掉线性进步叙事。
对 0414（Claude Code 体感）：本节点的”治理结构”视角是对”使用体感”的升级——从”用起来什么感觉”升到”如何组织设计这个协作系统”。
对 0418（审阅瓶颈，Rick 审阅行为是其一手数据）：本节点 §2 的”写权限沙盒隔离”+ §5 待填 4”三步 ingestion 摩擦”，正是 0418 审阅瓶颈的一手现场——审阅是 Rick 流水线里唯一不可外包给 AI 的环节，是瓶颈也是控制点。
对 0422（民族志方法）：本节点是 0422 方法论的落地实例——把分析式自我民族志（Anderson 五特征）真正应用到”专题工厂”这个田野上。
对 Polanyi 默会知识与提示工程的认识论张力：见 §7，本节点把 Polanyi 从”提示工程”语境迁移到”编排者判断校准”语境，论证留白的认识论必然性。

§10 关联节点

核心（必读）：

Polanyi 默会知识与提示工程的认识论张力 — §7 的跨域支柱
Skill 系统的本质 — §7 封装残余的对话对象
trip-structure skill — §3 失败实例之一
AI 记忆过拟合与泛化能力 — §3 失败实例之二
PKM 设计哲学与演化史 — §2/§3 架构塌缩的事实来源
Claude routines 调研与 memory allowlist 设计 — §2 memory 治理转型的对照

延伸（可选）：

旅行规划 Skill 套件系统设计 — fleet 分工的另一切面
AI PM 知识图谱框架设计 — Rick 框架操控行为的旁证
AI PM 知识图谱·总索引 — 全图谱入口
Claude Code — 编排的执行底座
Agent — fleet 角色的概念基础
NMAAHC 深度导览与 AI 表达元批评 — 旅行期 write-first 产出实例
VOC 博物馆评级与同构失败诊断 — 评级行为的旅行期实例
民族志 / 人类学 / 0117社会学 / 0114认识论 — 方法论入口

§11 修订日志

R0（2026-06-07）初稿：按宪章 §4 十一段骨架成文。判断主轴五错点、对手框架（Delamont/Walford/Anderson/Parasuraman）、Polanyi 跨域呼应、五处〔Rick 待填〕模板齐备。事实接地：方法学者/年份/arXiv ID 取自 grounding 简报（Anderson 2006、Lee & See 2004、Parasuraman & Manzey 2010、Bansal 2021 arXiv:2006.14779、Vasconcelos 2023 arXiv:2212.06823、Schemmer 2023 arXiv:2302.02187、Li 2024 arXiv:2404.19738、von Hippel 1986）。“40+ 对话/节点”数字按 §8 降级标〔待核实〕；唯一硬核 SABCD 分布 S:14/A:103/B:194/C:182 经 _README.md 确认。arXiv ID 已核实（2026-06-12）：2006.14779（Bansal et al. 2020/2021）、2212.06823（Vasconcelos et al. 2022/2023）、2302.02187（Schemmer et al. 2023, IUI）、2404.19738（Li et al. 2024, CHI），标题/作者/年份与本节点引述吻合。
2026-06-12 内审·arXiv 联网核实：清了 4 个（2006.14779 / 2212.06823 / 2302.02187 / 2404.19738，全部 WebFetch 存在且引述吻合），存疑 0 个。