E03 专题工厂作为多 Agent 协作 Case 剖解
E03 专题工厂作为多 Agent 协作 Case 剖解
本节点要解决的问题是:当一个人想用”自我民族志”研究自己的 AI 使用模式时,最干净的一手数据从哪里来? 答案有点自指——正在生产这套笔记的多 Agent 流水线本身,就是 Rick 作为 power user 编排 AI 的一次完整、可观察、带时间戳的现场。本节点的视角/框架名是 “生产即田野(production-as-fieldwork)“:不把”专题工厂”当成产出文章的工具,而是把它当成一个被记录的协作系统切片来剖解——谁决策、AI fleet 怎么分工、哪里失败、怎么修正。这正是 Anderson(2006)分析式自我民族志五特征中第一条 Complete Member Researcher 的标准操作:研究者必须是所研究场域的完整成员,而 Rick 是这条流水线的设计者兼唯一编排者,不存在比他更”完整”的成员。
[!note] 自指风险先标在门口 用”专题工厂”研究”Rick 的 AI 编排能力”,存在 Delamont(2007、2012)批评自我民族志时点名的 navel-gazing(自我沉溺) 风险:你既是被观察者、又是观察者、还是观察工具的作者,三重身份叠在一起,很容易把”我设计得真好”当成发现。本节点的防线是 §4 的判断主轴——只分析文件系统、对话存档、时间戳能验证的可观察行为,凡需要 Rick 内省的(信任校准、注意力分配、决策时的犹豫)一律留
〔Rick 待填〕模板,绝不替他编造。
§0 为什么是”生产即田野”框架,而不是”案例复盘”框架
读者脑中的默认框架大概是”项目复盘”——把专题工厂当成一个已完成的工程,总结 SOP、列经验教训。这个框架要挡掉,因为它会抹掉自我民族志最值钱的东西:研究者的在场可见性。
| 框架 | 它会问什么 | 它会漏掉什么 |
|---|---|---|
| 案例复盘(要避免) | 流水线吞吐多少节点?SOP 能不能复用? | 编排者 Rick 自己在每个决策点想什么、赌什么 |
| 生产即田野(本节点采用) | Rick 在哪些点介入/不介入?AI fleet 哪次跑偏、谁把它拉回来? | 不漏——把”人的判断”显式留为数据,留白处不填 |
Anderson(2006)的第三特征 Narrative Visibility(研究者须在文本中明确可见) 是这里的分水岭:纯案例复盘会写成”流水线做了 X”,把人隐去;生产即田野必须写成”Rick 决定让流水线做 X,因为……(可观察处分析,内省处留白)“。这也是为什么本节点不进 03 架构剖面(那是讲流水线”由什么组成”),而进 04 实例剖解——它剖的是这套系统在一次真实运行中怎么走样、怎么被修正的病理切片。
§1 田野对象的边界:什么算”本次专题工厂”
先把研究对象框死,否则容易把 Rick 全部 AI 使用史都装进来。本节点的田野对象 = 0423 自我民族志专题的多 Agent 生产流水线,其骨架沿用了已入库的 0411 Agent 系统化专题(22 节点、5 轮批判性同行评议)所确立的工程化流程,并由 _topic_factory/0423-autoethno/SHARED_CONTEXT.md(出版级写作宪章 v1)作为不可协商的硬约束。
可观察的流水线分层(来自宪章 §10):
flowchart LR
G[ground 接地<br/>方法学者/arXiv 核实] --> D[draft 并行起草<br/>每 Agent 1 模块/数节点]
D --> C[critique 对抗评议<br/>六维 S/A/B/C/D/E 打分]
C --> R[revise 修订<br/>按 issue 单 + 修订日志]
R --> V[verify grounding<br/>独立 Agent 逐条判定]
V --> S[synthesize 综合<br/>总览 README 双链编织]
S --> Q[QC 入库自检]
C -.迭代至收敛.-> R
这条链的关键设计是 write-first(先写后处理):宪章 §10 明确要求”Round 0 并行起草”在前、“Round N 批评”在后,而不是先评审标准再写。对照 0423 旅行期(2026-04-12~04-23)Rick 在美国南方民权路线上的实际行为——他先在博物馆现场触发 AI 对话并存档(约 40+ 条,存入 99Archive/9910 claude 对话存档/,日期戳 20260412–20260423 可查),后由 Phase 1 批量 pipeline 处理入库——可以看出 write-first 不是这次工厂临时发明的,而是 Rick 一贯的 ingestion 哲学的制度化。
[!note] 一个必须诚实标注的事实问题 本节点的核实材料里写”约 40+ 条对话/约 40+ 升格节点”,这些数字来自 grounding agent 的文件系统观察,但我(写作 agent)未独立逐一点验。按宪章 §8,这里降级表述为”据归档统计约 40+“,并标
〔待核实:精确条数以 99Archive/_README.md 的 SABCD 分布为准〕。已知的硬数字只有一条经 Read 确认:99Archive/_README.md记录 Phase 1 SABCD 分布为 S:14 / A:103 / B:194 / C:182。
§2 编排者的决策:Rick 在哪些点介入
这是本节点的核心数据带——Rick 作为编排者的可观察决策,全部有归档文本或文件系统佐证(详见 §9)。我把它们归成四类介入动作,因为”power user 编排 AI”的能力,恰恰体现在介入的时机与粒度上,而非 prompt 的措辞。
| 介入动作 | 可观察证据(来源已确认) | 这暴露了什么编排能力 |
|---|---|---|
| 设标准在前 | 写 SHARED_CONTEXT.md 出版级宪章(六维验收线、一票否决项、§8 接地纪律),所有 agent 动笔前必须读 | 把”质量”从主观感受转成可检验的契约,类似 PM 写 PRD 的验收标准 |
| 过拟合诊断 | 2026-03-23 对话:用 ML 框架(过拟合/泛化)对 AI 记忆做两轮元层干预,第一轮解耦”偏好了解”与”审美能力”,第二轮防”泛化≠平均化”(见 AI 记忆过拟合与泛化能力) | 用**操作语(ML 术语)**给 AI 做认知校正,而非含糊地说”你别这样” |
| 主动塌缩 over-design | 2026-05-21 早:Rick 主动提”12 agent 是否 over-engineering”,推动架构从 v1.3(12 角色)塌缩到 v1.4(5 sub-agent + 6 skill),判别依据 A/B/C/D 框架——只有真正需要”独立 context 隔离”的保留为 agent(见 PKM 设计哲学与演化史) | 对自己的 AI 系统做奥卡姆剃刀,这是极罕见的元层自检 |
| 写权限沙盒隔离 | vault 根 CLAUDE.md 原则四:AI 产出一律先入 _ai_review/ 沙盒,Rick 审阅后才 move | 把 AI 当成不可信的协作者做工程隔离,而非盲信 |
把这四类放在一起看,浮现出一个一致的模式:Rick 编排 AI 的方式,更像一个系统设计者在治理一支不可靠的团队,而不是一个用户在调用一个工具。设标准、诊断认知偏差、砍冗余、隔离权限——这是组织设计的语汇,不是 prompt 工程的语汇。这正是本专题”Rick 是极端 power user”判断的活证据,也为 §13 框架报告(多 Agent 知识生产 SOP)提供了第一手剖面。
§3 AI fleet 的分工与失败-修正现场
如果只写”Rick 决策得好”,就落进了 §0 警告的自我沉溺。自我民族志的诚实要求记录失败——Anderson 第四特征 Dialogue with Informants(与场域中其他成员对话,避免自我独白),在多 Agent 语境里,“其他成员”就是 AI fleet 各角色,它们的跑偏与被纠正是真实可观察的对话痕迹。
已记录的失败-修正轨迹(来源已确认):
-
over-design 失败(skill 层):
trip-structure skill有完整的”over-design → 被 Rick 拉回 → 收敛”轨迹,时间节点 2026-04-03,由 skill-creator 元 skill 重写(见 trip-structure skill)。失败模式:AI 倾向于把输出格式做得过度复杂。修正机制:人类介入 + 元 skill 重构。 -
over-design 失败(架构层):v1.3 的 12-agent 架构本身就是 fleet 自我膨胀的产物——2026-05-17 从单 agent 演化到 8→11 角色,2026-05-18 定型 12 角色,直到 2026-05-21 Rick 介入才塌缩。失败模式:Orchestrator 暴露 meta-blind spot——编排者 agent 自己看不到”角色太多”这个问题。修正机制:人类提出挑战 + A/B/C/D 判别框架。
-
审美过拟合失败(记忆层):2026-03-23 AI 因记忆积累产生”审美过拟合”,把 Rick 的偏好误当成审美标准。修正机制:ML 术语元层干预两轮。
这三个失败有一个共同结构:AI fleet 的失败模式高度集中在”过度”——过度设计、过度膨胀、过度拟合,而不是”不足”。这与人-AI 交互文献里 Bansal et al.(2021,CHI,arXiv:2006.14779)的反直觉发现遥相呼应:AI 的”解释/输出”倾向于增加而非减少负担——“解释提高了人类采纳 AI 建议的概率,不论建议正确与否”。在本工厂里,对应物是”agent 倾向于增加角色/格式/记忆条目,不论是否必要”。修正者永远是人类的剪枝判断,而这恰恰是过度依赖(overreliance)研究最担心被 AI 接管的那个环节。
[!note] 这条流水线本身就是一个”对抗过度依赖”的装置 宪章 §10 要求批评 agent 默认立场是找茬(“这条判断能被证伪吗?引用是真的吗?跨域呼应是空喊吗?”),§8 设独立 grounding agent 逐条判定”已接地/需接地/疑似编造”。这是把 Vasconcelos et al.(2023,CSCW,arXiv:2212.06823,N=731)的”成本-收益框架”工程化:通过对抗评议降低人类验证 AI 产出的认知成本,从而争取”适当依赖(appropriate reliance)“而非过度依赖。Schemmer et al.(2023,IUI,arXiv:2302.02187)把这个构念操作化为 AoR = 正确采纳率 × 正确拒绝率——本工厂的 SABCD 评级 + critique 单,正是 AoR 的土法实现。
§4 判断主轴:用”自指自传”做研究时,90% 的人会在这五点搞错
这是本节点区分”PM 顶刊”与”自夸博客”的命门。把”正在生产笔记的流水线”当数据,有五个高发陷阱,每点带 症状 → 为什么会错 → 正确做法 → 真实反例。
错点 1:把”我设计的系统”等同于”我证明的能力”。
- 症状:列一堆 agent 角色和 skill,结论”Rick 是顶级 power user”。
- 为什么会错:设计文档存在 ≠ 设计有效。Anderson 第五特征 Theoretical Commitment 要求从个案上升到可迁移洞见,而堆设计只是描述。
- 正确做法:只把可观察的有效性证据(失败被修正、over-design 被砍掉并跑通)当能力证据,把”设计存在”降级为”意图证据”。
- 真实反例:12-agent v1.3 是 Rick 设计的,但它恰恰是 over-engineering 的证据,不是能力的证据;能力体现在他事后砍掉它。
错点 2:把 AI fleet 的产出当成 Rick 的内省数据。
- 症状:写”Rick 在 review diff 时感到效率提升”。
- 为什么会错:这是 fleet 或写作者替 Rick 编造感受,触犯本任务最硬的红线,也是 Delamont 批评自我民族志”把虚构当数据”的活靶子。
- 正确做法:信任校准、注意力分配、决策时的犹豫——全部留
〔Rick 待填〕(见 §5)。 - 真实反例:人-AI 信任文献(Lee & See,2004,Human Factors;4170+ 引用)整个建立在”信任是主观状态需被测量”之上——它不能从行为日志反推,必须由当事人自报。
错点 3:把 write-first 流水线的”高吞吐”当成”高质量”。
- 症状:用”一次跑出 N 个节点”证明系统优越。
- 为什么会错:吞吐是 usage log 能测的行为指标,质量是 grounding/critique 才能测的语义指标,二者正交。OpenRouter(2026)那种”100 万亿 token”规模研究的代表性 vs 深度问题,就是这个错的宏观版。
- 正确做法:质量证据只采信”通过六维验收线(综合 ≥7.8)+ 0 处疑似编造”的 grounding pass 结果。
- 真实反例:本节点自己的”40+ 条对话”数字就因未独立核验而被降级为〔待核实〕——吞吐数字最不可信。
错点 4:用流水线的”成功叙事”掩盖 selection bias。
- 症状:只剖解被升格入库的节点,不提被评 C/被丢弃的对话。
- 为什么会错:
_README.md的 SABCD 分布是 S:14 / A:103 / B:194 / C:182——C 级 182 条几乎和 B 级持平,只看 S/A 就是幸存者偏差。 - 正确做法:把”什么被丢弃、为什么”也当数据。这正是宪章 §7 要求的 confirmation-bias 砍除清单。
- 真实反例:宪章 §7 自带反例机制——“本专题早期反复引 X 作为正面案例,这是 bias,补入反例 Y”。
错点 5:把”自我民族志”当成不需要对手的方法。
- 症状:“研究对象是 Rick 本人,独一无二,无竞争者,所以不需要对手框架。”
- 为什么会错:无竞争者 ≠ 无对手立场。Delamont/Walford 对整个方法的”缺乏严谨性/navel-gazing”批评,就是必须正面接住的对手(见 §6)。
- 正确做法:用方法论层的对手(而非内容层的竞品)来逼问。
- 真实反例:Ellis & Bochner(2000)用 verisimilitude(栩栩如生性)、Richardson 用 crystallization(水晶化)作为替代效度标准,恰恰是因为他们知道实证主义者会攻击效度——回应对手是该方法的内置环节。
§5 产品 PM 视角补盲 + 〔Rick 待填〕结构化模板
跳出”工程 PM”视角,本节点最大的产品启示是:一个真正可信的”AI 协作能力”画像,必须同时包含可观察行为层和不可观察内省层,二者缺一不可。光有行为日志(usage log)会漏掉意图与情境;光有自报会有社会期望偏差。本工厂提供了前者的现成数据,后者必须由 Rick 亲填——这是自我民族志区别于纯日志分析的认识论本质,也是本节点诚实交付的核心。
以下是为 Rick 准备的内省补充模板(绝不代填)。每项配一个引导问题,降低回忆成本(参考 Li et al. 2024 DiaryHelper,arXiv:2404.19738,AI 辅助情景记忆五维:时间/地点/人物/行为/感受):
[!quote] 〔Rick 待填 1:write-first 的决策体感〕 引导问题:旅途中你”先产出原始对话、后批量处理”,与”实时整理每条”相比,当时的认知负担差异是什么?是刻意为之的策略,还是当时没空只能这样?
[!quote] 〔Rick 待填 2:SABCD 评级的内部标准〕 引导问题:14 条 S 级和 182 条 C 级之间,你自己的价值判断尺子是什么?评级时哪些对话让你犹豫(该 B 还是该 C)?犹豫点本身就是你审美标准的边界。
[!quote] 〔Rick 待填 3:12→5 塌缩的真实驱动〕 引导问题:v1.4 塌缩,是认知疲劳(角色太多记不住)、架构美感(看着别扭)、还是纯效率(跑得慢)驱动?三者权重大概各占多少?
[!quote] 〔Rick 待填 4:三步 ingestion 的执行摩擦〕 引导问题:
_ai_review沙盒 → 审阅 → move 这套流程,实际操作中哪一步最容易被你跳过?跳过时你在赌什么(赌 AI 这次不会出错?)?
[!quote] 〔Rick 待填 5:AI 作为田野扩展器〕 引导问题:在博物馆现场即时向 AI 提问-分析,改变了你旅行的深度或方向感吗?是让你看得更深,还是让你少了独自凝视的时刻?
这五个留白不是偷懒,而是方法论立场——它们标出了”可观察”与”需内省”的精确边界。一个替 Rick 填了这些的版本,会更”完整”,但会是虚构。
§6 对手框架回应:接受 navel-gazing 批评 + 标注边界
接受的部分: Sara Delamont(加的夫大学,2007、2012)称自我民族志”缺乏学术严谨性、是学术性的自我沉迷”,Geoffrey Walford 质疑个人叙事有变成”虚构”的风险——这两条批评对本节点完全成立的部分是:如果本节点替 Rick 编造内省数据、只剖成功节点、把设计当能力,它就是教科书级的 navel-gazing。这正是为什么 §4 的五个错点、§5 的五处留白被设为硬约束。
坚持的边界与赌注: 我赌的是——当研究对象本身是”一个人如何编排 AI”这种极端个案、且不存在可比对象时,自我民族志不是次优选择,而是唯一能触达的方法。Lead user 研究(von Hippel,1986,The Sources of Innovation)的整个合法性,就建立在”极少数领先用户身上有不成比例的信息价值”之上——Rick 作为 AI power user 正是这种 lead user,对他的深描比对一千个普通用户的问卷更能预示 AI 协作工具的演化方向。边界在于:本节点的结论是 N=1,“个案 ≠ 普遍规律”必须每次重申;它能产出的是”可迁移的假设”(如”AI fleet 的失败集中在过度而非不足”),而非”已验证的定律”。
引入 Rick 未读的对手框架(破 echo chamber):
- Leon Anderson 的分析式自我民族志(2006,Journal of Contemporary Ethnography, 35(4): 373–395)——这是对 Rick 熟悉的 Ellis/Bochner 唤起式路线的内部修正派。Anderson 会批评:本节点若只停在”剖解一次有趣的协作”,缺了第五特征 Theoretical Commitment(理论建构),就只是好故事不是研究。回应:§3 的”失败集中在过度”、§4 的五个错点,就是在向可迁移理论努力。
- Parasuraman & Manzey 的 automation complacency(2010,Human Factors,1096+ 引用)——他们的硬结论是”自动化偏差训练和指令均无法消除,专家新手都中招”。这对本工厂是直接威胁:宪章设了那么多 critique/grounding agent,能消除 Rick 对自己 AI 系统的 complacency 吗?回应:不能完全消除,但把”剪枝判断”留在人类手里(§3)、把内省留白(§5),是承认这条边界后的减灾设计,不是宣称免疫。
§7 跨域呼应:Polanyi 默会知识 × “可观察 / 需内省”的认识论边界
本节点调度的跨域资源是 Michael Polanyi 的默会知识(tacit knowledge),具体展开它如何改变本节点的判断(链入 Polanyi 默会知识与提示工程的认识论张力)。
Polanyi 的命题”我们知道的比我们能说出来的多(we know more than we can tell)“,精确地切中了本节点的方法论困境。Rick 编排 AI 的能力里,可观察层(设标准、砍 over-design、隔离权限)是已经被”言说”出来的显性知识——它们留下了文件、对话、时间戳,所以能被本节点如实剖解。但 Rick 评级时的犹豫、信任某个 agent 输出时的直觉、决定跳过审阅时的赌注——这些是 默会的,它们之所以必须留 〔Rick 待填〕,不是因为没记录,而是因为 Polanyi 意义上它们原则上难以被外部观察者还原。
这个跨域呼应改变了本节点的核心判断:它把”留白”从”数据缺口(缺憾)“重新定义为”认识论边界(诚实)“。一个声称完整还原了 Rick AI 协作能力的版本,恰恰违背了 Polanyi——它假装默会知识可以被旁观者外化。本节点拒绝这种假装,正是它认识论自觉的所在。这也与 Skill 系统的本质 形成对话:skill 是”把 procedural/默会知识文档化封装”的尝试,而本节点揭示了封装的残余——总有一层(编排者的判断校准)封装不进 skill,只能由当事人自报。
§8 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试怎么用:当被问”你怎么用 AI”时,不要展示 prompt 技巧;展示这套流水线的治理结构——write-first、对抗评议、grounding pass、over-design 主动塌缩。区分点不是”会用工具”,而是”把 AI 当不可靠团队来组织设计”。一句话钩子:“我对自己的 AI 系统做过奥卡姆剃刀,把 12 个 agent 砍到 5 个。”
- 选型怎么用:评估任何”多 Agent / AI 协作”产品时,照本节点 §3 的失败结构去拷问——它的剪枝判断在谁手里? 如果产品把”增加 agent/记忆/解释”当卖点而没有对应的砍除机制,按 Bansal 2021 的规律,它大概率在制造过度依赖而非互补。
- 复现怎么用:要复现”可信的 AI 协作能力画像”,照 §5 的双层模板做——可观察层抓文件系统/对话存档/usage log,需内省层用 DiaryHelper 式(arXiv:2404.19738)五维引导问题做结构化自报,两层分开标注、绝不混填。
§9 与已有节点的关系(显式升级对照)
本节点不复述以下节点的事实基础,只做对照升级:
- 对 trip-structure skill:该节点记录了 trip-structure 单个 skill 的 over-design→收敛轨迹。本节点做深化——把它从”一个 skill 的迭代史”升格为”AI fleet 失败模式的一个实例”,纳入 §3 的过度-膨胀统一模式。
- 对 AI 记忆过拟合与泛化能力:该节点剖析记忆过拟合的机制。本节点做对话——把”审美过拟合”放进 §3 的失败三连,论证它与 over-design、架构膨胀同属”AI 倾向于过度”这一更高阶模式。
- 对 Skill 系统的本质:该节点论证 skill = 默会知识的文档化封装。本节点做纠偏/补缺——§7 指出”封装的残余”:编排者的判断校准封装不进 skill,是 skill 系统的认识论天花板。
- 对 PKM 设计哲学与演化史:该节点记录 v1.3→v1.4 演化。本节点做纠偏——把”演化”重新框定为”一次 over-design 的失败与人类剪枝修正”,剥掉线性进步叙事。
- 对 0414(Claude Code 体感):本节点的”治理结构”视角是对”使用体感”的升级——从”用起来什么感觉”升到”如何组织设计这个协作系统”。
- 对 0418(审阅瓶颈,Rick 审阅行为是其一手数据):本节点 §2 的”写权限沙盒隔离”+ §5 待填 4”三步 ingestion 摩擦”,正是 0418 审阅瓶颈的一手现场——审阅是 Rick 流水线里唯一不可外包给 AI 的环节,是瓶颈也是控制点。
- 对 0422(民族志方法):本节点是 0422 方法论的落地实例——把分析式自我民族志(Anderson 五特征)真正应用到”专题工厂”这个田野上。
- 对 Polanyi 默会知识与提示工程的认识论张力:见 §7,本节点把 Polanyi 从”提示工程”语境迁移到”编排者判断校准”语境,论证留白的认识论必然性。
§10 关联节点
核心(必读):
- Polanyi 默会知识与提示工程的认识论张力 — §7 的跨域支柱
- Skill 系统的本质 — §7 封装残余的对话对象
- trip-structure skill — §3 失败实例之一
- AI 记忆过拟合与泛化能力 — §3 失败实例之二
- PKM 设计哲学与演化史 — §2/§3 架构塌缩的事实来源
- Claude routines 调研与 memory allowlist 设计 — §2 memory 治理转型的对照
延伸(可选):
- 旅行规划 Skill 套件系统设计 — fleet 分工的另一切面
- AI PM 知识图谱框架设计 — Rick 框架操控行为的旁证
- AI PM 知识图谱·总索引 — 全图谱入口
- Claude Code — 编排的执行底座
- Agent — fleet 角色的概念基础
- NMAAHC 深度导览与 AI 表达元批评 — 旅行期 write-first 产出实例
- VOC 博物馆评级与同构失败诊断 — 评级行为的旅行期实例
- 民族志 / 人类学 / 0117社会学 / 0114认识论 — 方法论入口
§11 修订日志
- R0(2026-06-07)初稿:按宪章 §4 十一段骨架成文。判断主轴五错点、对手框架(Delamont/Walford/Anderson/Parasuraman)、Polanyi 跨域呼应、五处〔Rick 待填〕模板齐备。事实接地:方法学者/年份/arXiv ID 取自 grounding 简报(Anderson 2006、Lee & See 2004、Parasuraman & Manzey 2010、Bansal 2021 arXiv:2006.14779、Vasconcelos 2023 arXiv:2212.06823、Schemmer 2023 arXiv:2302.02187、Li 2024 arXiv:2404.19738、von Hippel 1986)。“40+ 对话/节点”数字按 §8 降级标〔待核实〕;唯一硬核 SABCD 分布 S:14/A:103/B:194/C:182 经
_README.md确认。arXiv ID 已核实(2026-06-12):2006.14779(Bansal et al. 2020/2021)、2212.06823(Vasconcelos et al. 2022/2023)、2302.02187(Schemmer et al. 2023, IUI)、2404.19738(Li et al. 2024, CHI),标题/作者/年份与本节点引述吻合。 - 2026-06-12 内审·arXiv 联网核实:清了 4 个(2006.14779 / 2212.06823 / 2302.02187 / 2404.19738,全部 WebFetch 存在且引述吻合),存疑 0 个。