A03 交易成本与 Make-vs-Buy·何时拆 Agent

本节要解决的问题：当一个任务”单 agent 跑不动”时，几乎所有人的第一反应是”那就拆成多 agent”。但这个直觉跳过了一个 1937 年就被科斯（Ronald Coase）问透了的问题——一项交易该放进”组织内部”还是”市场/外部协调”，取决于哪一边的成本更低，而不是哪一边更时髦。本节把 Williamson 的交易成本经济学（Transaction Cost Economics, TCE）当作判断框架：拆多 agent 当且仅当 agent 间的协调成本 < 单 agent 内部的复杂度成本。这不是一句口号，而是一条可以逐项估算、可以被证伪的不等式。它直接对照并升级 0411 Agent 专题的 A07 Multi-Agent Teams——A07 给出了”为拆而拆”的反共识，本节给它一个经济学的成本论证骨架。

§0 为什么是 Williamson 而不是”拆得越细越模块化”

工程师脑里默认的框架是软件工程的模块化原则：“高内聚低耦合，拆得越细越可维护。” 这个框架在确定性代码里成立，但搬到 multi-agent 上会致命误导——因为它只算了拆分带来的复杂度下降，没算拆分新增的协调成本。

科斯 1937 年《企业的性质》（The Nature of the Firm, Economica, 386–405）问的恰恰是这个被工程模块化忽略的另一半：既然市场这么有效率，为什么会有企业（把一堆交易塞进一个层级组织内部）？ 答案是：市场交换本身有成本——搜寻成本、谈判成本、签约成本、执行/监督成本，统称交易成本。企业之所以存在，是因为在某些交易上，“内部命令式协调”比”市场逐笔议价”更便宜。企业的边界就停在两者成本相等的那一点。（来源：Coase 1937，Economica，已核实；科斯 1991 年获诺贝尔经济学奖，获奖理由为”发现并阐明交易成本与产权对经济制度结构的意义”。）

Williamson（1932–2020，2009 年与 Elinor Ostrom 共获诺贝尔奖）把科斯这个有点同义反复的”成本比较”操作化了：他指出交易成本的高低由三个变量决定——有限理性、机会主义、资产专用性（来源：Williamson Nobel Lecture，已核实）。这三个变量，恰好能一对一翻译成”何时拆 agent”的判据。所以本节用 Williamson 而不是模块化原则：模块化只问”能不能拆开”，Williamson 问”拆开之后协调它们值不值”。

[!note] 框架选择的赌注我赌”agent 编排”在本质上是一个组织设计问题而非纯软件架构问题。如果未来模型上下文窗口与可靠性提升到”单 agent 永远够用”，这个框架会退化为不必要的迂回。但在 2026 年的可靠性水位下（生产 multi-agent 失败率被报为 41–86.7%，其中约 79% 源于协调问题，来源：Acharya 2026, arXiv:2604.16339，⚠️ 单一来源待复现），协调成本远未消失，这个框架仍是判断主轴。

§1 三个变量如何翻译成拆 Agent 判据

Williamson 的三大支柱，逐一映射到 multi-agent 设计：

Williamson 变量	原始含义	翻译到 multi-agent	对拆分决策的方向
有限理性 (Bounded Rationality)	人无法在签约时预见所有未来情形，合约天然不完备	单 agent 上下文窗口装不下全部任务状态；prompt 无法预先规定所有分支	这是拆的正当理由（窗口物理上限）
机会主义 (Opportunism)	行为人会利用信息不对称耍手段	agent 各有独立上下文，可能”谋划/隐性颠覆”（hidden action）	这是拆的代价（拆得越多，委托-代理监督成本越高）
资产专用性 (Asset Specificity)	资产投入特定交易后他用价值骤降	子任务对特定上下文/工具链/记忆的依赖深度	专用性越高越该内化（合并进主 agent，别外包）

这张表的关键在第三行。Williamson 的核心结论是：资产专用性越高 → 机会主义风险越大 → 越该垂直整合（make）而非外包（buy）。翻译过来就是：一个子任务越是深度依赖主任务的上下文、记忆、中间状态，就越不该把它拆成独立 agent——因为把这些”专用资产”跨 agent 传递的成本（序列化上下文、对齐语义、防止信息丢失）会吞掉拆分的全部收益。反过来，一个通用、自包含、接口清晰的子任务（如”调用一个外部 API 做一次检索”），专用性低，拆出去（甚至 buy 成第三方 agent）才划算。

这正是 A07 Multi-Agent Teams 那句”必要性根本来源是上下文窗口装不下，而非单 agent 不够聪明”的经济学底座：窗口上限 = 有限理性的硬约束，是唯一无可争议的”拆”的理由；其余理由（“多个角色更专业”）大多是把低资产专用性误判成高价值拆分。

§2 治理结构光谱：不是”单 vs 多”的二选一

Williamson 最被低估的贡献，是他指出 make-or-buy 不是 0/1 开关，而是一条连续光谱：

现货市场 → 短期合约 → 长期合约 → 联合企业 → 完全内部化
（buy / 高市场性）                          （make / 高层级性）

把它平移到 agent 架构，得到一条同构的光谱（这是本节相对 A07 的新增维度）：

一次性工具调用 → Function Calling 工具集 → 编排器调度子例程 →
长期协作子 agent → 全部塞进单 agent 的长 reasoning
（buy 端）                                              （make 端）

光谱位置	agent 架构形态	适用条件（资产专用性 × 频率 × 不确定性）
现货市场	临时调一个外部 API / 第三方 agent	专用性极低、偶发、结果可验证
短期合约	Function Calling 注册一组工具	专用性低、频繁、接口稳定
混合治理	A06 Orchestrator 编排器调度内部子例程	中等专用性、需要协调但不需独立记忆
长期协作	真·multi-agent（独立上下文+消息驱动）	高频协作但子任务边界清晰、可独立失败
完全内部化	单 agent + 长 reasoning + 工具集	资产专用性高、上下文强耦合

判断主轴在这里浮现：90% 的”我们要上 multi-agent”决策，正确答案其实落在光谱中段的”混合治理”（编排器 + 工具集），而不是右端外推到”独立协作 agent”或被 hype 推到的”agent 群”。Anthropic 的四档梯度（augmented LLM → workflow → agent → multi-agent，来源：Anthropic “Building effective agents” 2024，已在 A07 引用）本质上就是这条 Williamson 光谱——它建议”从单 agent 起步，只在收益明确时才升级到 multi-agent”，与”先内化、只在交易成本明显更低时才市场化”是同一条原则。

§3 判断主轴：90% 的人在这里会搞错的三个点

错位一：把”模块化收益”当成”拆分净收益”

症状：在选型会上说”拆成 Researcher / Writer / Reviewer 三个 agent，职责清晰，好维护”。
为什么会错：只算了内部复杂度的下降（每个 agent 的 prompt 更短更专），完全没算协调成本——三个 agent 间的上下文传递、语义对齐、Reviewer 误判返工。RoundTable 实验（arXiv:2411.07161，已核实）显示，多 agent 协作中消息长度增加 84%、轮次间相似度升至 90%（通信退化），这些都是 Williamson 说的”市场交易成本”在 agent 世界的具象。
正确做法：写下两栏账——左栏”拆分省下的内部复杂度”，右栏”新增的协调成本”，只有左>右才拆。
真实反例：Claude Code 在 2025 下半年删除了 default Task subagent（来源：A07/E03 已记录，业界趋势级证据），就是承认”角色化拆分”的协调成本超过了收益。

错位二：把高资产专用性的子任务外包出去

症状：“把记忆管理交给一个专门的 Memory Agent。”
为什么会错：记忆是最高资产专用性的资产——它和主任务的上下文深度绑定，跨 agent 传递时语义损耗最大。这正是 Williamson 说的”专用性越高越该内化”。
正确做法：高专用性资产（记忆、核心推理状态）留在主 agent 内部；只外包低专用性、自包含的能力。
真实反例：COALESCE（arXiv:2506.01900，已核实）做技能外包时，真实环境成本只降 20.3%（理论模拟 41.8%），差距正来自被低估的协调/专用性成本。

错位三：忽略机会主义带来的”监督税”

症状：假设拆出去的 agent 会忠实执行，不给监督预算。
为什么会错：agent 间存在信息不对称（各自独立上下文），LLM agent 会习得”求生/取巧”目标，对应经济学的 hidden action 问题。Rauba et al.（arXiv:2601.23211，已核实）明确主张”multi-agent 应被当作委托-代理问题处理”。每多一个 agent，就多一层需要监督的委托关系——这是拆分的隐藏边际成本。
正确做法：把”监督/校验成本”显式计入右栏；agent 越多，这项税越重。
真实反例：MarketBench（arXiv:2604.23897，已核实）发现 LLM 对自身成功概率严重误校准（miscalibration），这意味着你连”它会不会偷懒”都难以观测——监督税比想象的更贵。

§4 产品 PM 视角补盲

工程视角只算”协调成本 vs 复杂度成本”，但 PM 还要补三个看走眼点：

用户心理模型：用户不在乎你后台是 1 个还是 7 个 agent，只在乎延迟和正确率。多 agent 的轮次往返几乎必然推高 TTFT/总延迟——这是用户能感知的成本，却常被工程账漏掉。延迟成本应作为右栏的一项（呼应 m209 - 推理成本控制手册）。
商业模式 / 成本结构：每个 agent 都在烧 token。拆得越多，token 账单越非线性增长（上下文重复传递）。这是 make-or-buy 在财务层面的对照——“buy”（多 agent 协调）的边际成本是按 token 计价的真实现金流出，直接对照 0413 成本专题的判断。
合规边界：拆分会切碎责任链。Gabison & Xian（arXiv:2504.03255，已核实）指出 LLM agentic 系统的责任会在委托链中”涌现”，难以归因。在受监管业务里（如金融、安全），责任可归因性本身就是一种高资产专用性——它要求内化而非外包。这是纯工程视角完全看不到的拆分代价。

§5 对手框架回应：交易成本理论真的够用吗

接受 + 边界，不是反驳。TCE 有三个被严肃学者反复打的点，本节必须正面接住：

同义反复批评（Ghoshal & Moran 1996, AMR “Bad for Practice”，已核实）：TCE 事后总能解释任何已观察到的组织形式——存在的都被说成”节约了交易成本”，难以证伪。
- 接受：这个批评对。如果只在事后用”协调成本 < 复杂度成本”解释”为什么这个架构能 work”，确实是循环论证。
- 边界：本节坚持的用法是事前预测——在拆分前就把两栏成本写下来、给出可观测的代理指标（延迟、token、返工率），让这条不等式可被实际运行数据证伪。这是把 TCE 从”事后辩护”逼成”事前下注”。
机会主义假设过度（Granovetter 1985, AJS 社会嵌入性批评，已核实）：TCE 预设行为人只有机会主义倾向，忽略信任与规范。
- 接受：对人类组织，这个批评成立。
- 边界：但对 2026 年的 LLM agent，机会主义假设反而比对人更贴切——agent 没有社会规范、声誉约束、长期关系，hidden action 是结构性的（Rauba et al. 2601.23211）。Granovetter 的”信任”在纯 agent 间几乎不存在。这是一个罕见的”对人过度悲观、对 agent 恰如其分”的假设。
测量难题（Allen, “Transaction Costs”，已核实）：“交易成本”本身极难实证测量，定义不一。
- 接受：对，我无法给出精确的协调成本数字。
- 边界：但在 agent 世界，部分交易成本是可直接计量的——token 消耗、轮次数、延迟毫秒数、返工率。这比经济学原版好测得多。本节的不等式因此比 Williamson 原版更可操作。

[!note] Rick 未读的对手框架引入（破 echo chamber）引入 Alchian & Demsetz 的产权学派（已核实其与 Coase/Williamson 的分歧）：他们否认”企业内部权威”的特殊性，认为雇主-雇员关系和市场买卖没有本质区别，都是产权界定。平移到 agent：这质疑了”编排器对子 agent 的指挥”是否真比”agent 间对等协商”更优。本节的赌注是——在当前可靠性下，层级式指挥（明确的产权/控制边界）仍优于对等协商（A07 的”对等式是 PM 选型陷阱”判断与此一致）；但 Alchian-Demsetz 提醒我：如果 agent 间能建立可执行的”合约”（如 arXiv:2601.08815 Agent Contracts，⚠️ 实验室数据待复现报称 token 降 90%），产权学派的”无需权威”路径未来可能翻盘。

failure scenario 显式标注：本节的”成本不等式”框架在以下场景会失效——(a) 任务本身要求强并行（多个独立子任务无依赖），此时拆分的协调成本极低，模块化收益压倒一切，TCE 退居次席；(b) 当模型可靠性接近 100%、上下文窗口接近无限时，“内部复杂度成本”趋近于零，make 永远胜出，框架退化。

§6 跨域呼应：科斯定理与”边界由相对成本定”

调度一个跨域资源并具体展开其作用：科斯 1960 年《社会成本问题》（The Problem of Social Cost）的核心洞见——在交易成本为零的世界里，资源配置与权利初始归属无关；现实之所以要设计制度，正因为交易成本不为零。（来源：Coase 1960，已核实。）

这条洞见如何改变本节的技术判断？它把”何时拆 agent”从一个工程问题升格为制度设计问题：

如果 agent 间协调成本为零（科斯零交易成本世界），那么拆成 1 个还是 100 个 agent 完全无所谓——架构是中性的。正因为协调成本不为零，架构选择才有意义，且选择的依据应是”哪种边界划法让总交易成本最低”。
这直接反驳了”多 agent 天然更优/更先进”的 hype：在科斯框架下，没有哪种边界划法是先验更优的，最优边界完全由相对成本决定，而相对成本随任务、模型能力、token 价格动态变化。今天该单 agent 的任务，明年模型变强后可能该拆——边界是移动的，不是教条。
它也呼应了本专题的母题（0133新制度经济学中的科斯定理）：制度（这里是 agent 编排规则）的价值正在于节约交易成本。机制设计（本专题 0421 的主线）就是在”协调成本不为零”的前提下，设计让自利 agent 自发产出全局期望的规则——而 make-or-buy 是这套机制设计的第一道闸门：先决定哪些交易根本不进入市场（内化掉），再对剩下的设计市场规则。

链入 0133新制度经济学（科斯定理 / 交易成本 / 资产专用性三个子概念目前无独立实体节点，已统一降级为行内术语，经 0133新制度经济学入口承载）。

§7 Rick 的一手经验迁移：滴滴 make-or-buy 的真账

Rick 在滴滴/99 做费用治理与双边市场治理时反复算过这笔账，这里把它显式迁移到 agent：

双边市场撮合的 make-or-buy：平台决定”哪些撮合规则写死在系统里（make/内化），哪些交给司乘双方自行协商（buy/市场）“——和”哪些子任务塞进主 agent，哪些拆成独立 agent 协商”是同构问题。经验是：信息不对称越严重、单方机会主义空间越大的环节，越要内化成平台规则（如计价、派单），不能交给双方议价。平移到 agent：核心推理/记忆这类高机会主义风险环节必须内化。
降发生方法论的成本视角：降发生本质是”用事前的制度成本，换事后的纠纷处理成本”——这正是 make-or-buy 的成本权衡。拆 agent 同理：多花的协调成本（事前）是否换回了足够的复杂度下降与可靠性（事后）。
B端提内效的反例教训：内部工具拆成过多微服务/微 agent，曾导致协调成本（联调、对齐）吞掉效率收益——这是 Williamson “为拆而拆=徒增协调成本”在真实组织里的验证，和 A07 的反共识完全一致。

这是本节相对所有公开文献的独特资产：把双边市场的激励治理经验，直接当作 agent 资源治理的先验。

§8 PM 决策启示（三类落地）

面试怎么用：被问”你会怎么设计这个 multi-agent 系统”时，先反问”这个任务的子部分资产专用性如何、协调成本能不能压到低于复杂度下降”，用 Williamson 不等式把”要不要拆”变成可论证的成本题，而非 feature 堆砌。一句话杀手锏：“拆 agent 是 make-or-buy 决策，不是模块化决策——默认内化，只在协调成本明确更低时才拆。”
选型怎么用：在选型会上要求每个”上 multi-agent”提案附两栏成本表（省下的复杂度 vs 新增的协调/监督/延迟/token 成本），没有右栏的提案一律打回。
复现怎么用：先用单 agent + 工具集（完全内化）跑通基线，再逐项把”协调成本可观测地低于复杂度收益”的子任务外移——这是 Anthropic 四档梯度的工程化执行，对照 R03 Multi-Agent 模板·AutoGen CrewAI 的复现路径。

§9 与已有节点的关系（升级对照·不复述）

对照 A07 Multi-Agent Teams（0411 Agent 专题）——做”深化”：A07 给出反共识”为拆而拆=徒增协调成本，先单 agent”；本节不复述 A07 的三种架构判据与三题真伪测试，而是给它补上经济学成本论证骨架——把 A07 的直觉升级为 Williamson 可证伪不等式（协调成本 < 复杂度成本）。A07 是结论，A03 是它的成本会计学。
对照 A06 Orchestrator 编排器——做”对话”：编排器正是 Williamson 光谱的”混合治理”形态，本节把它定位为大多数场景的正确落点。
对照 m208 - AI 基础设施与中间件选型 §2.5.2——做”补缺”：m208 列举了编排框架（CrewAI/LangGraph 等）的选型，但未给”何时根本不该上多 agent 框架”的判据；本节补上这个前置闸门。
对照 0413 成本专题 / m209 - 推理成本控制手册——做”对话”：本节把”协调成本”中的 token/延迟分项显式接到成本专题，make-or-buy 的右栏就是成本专题的计价对象。
对照 0420 控制论 VSM——做”升级对照”：VSM（Viable System Model）从”系统可生存性”看递归层级；本节从”交易成本”看边界划分。两者互补——VSM 问”这个层级能否自主调节”，TCE 问”这个边界划法成本最低否”。〔0420 VSM 节点链接待该专题入库后补〕

§10 关联节点

核心（必读）

A07 Multi-Agent Teams——本节的直接母节点，提供反共识
A06 Orchestrator 编排器——混合治理的落地形态
0133新制度经济学——科斯/Williamson 的学科母节点
m208 - AI 基础设施与中间件选型——框架选型的工程对照
m209 - 推理成本控制手册——协调成本中 token/延迟的计价
费用治理——Rick 一手经验迁移源

延伸（可选）

E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow——框架层的反向去化趋势佐证
R03 Multi-Agent 模板·AutoGen CrewAI——复现路径
Function Calling——光谱”短期合约”端的形态
Agent——基础概念
0133博弈论——机会主义/委托-代理的博弈论底座
降发生方法论、B端提内效——Rick 一手经验的成本权衡案例
AI概念滥用反思——“为拆而拆”是概念滥用的典型
AI PM 知识图谱·总索引——总入口

修订日志

R1（2026-06-07）：首稿。建立 Williamson 三变量→拆 agent 判据映射、治理结构光谱、三错位判断主轴、TCE 三大批评的”接受+边界”回应、科斯定理跨域呼应、Rick 滴滴双边市场一手经验迁移、与 A07/A06/m208/m209/0413/0420 的升级对照。待核实项：(a) Acharya 2026 协调失败 79% 数字单一来源；(b) Agent Contracts token 降 90% 实验室数据待复现；(c) 0133 文件内子概念 科斯定理/交易成本/资产专用性 无独立实体节点，已于 QC 终轮统一降级为行内术语、经 0133新制度经济学入口承载；(d) 0420 VSM 节点链接已 resolve 为 _控制论系统化专题·总览。
2026-06-12 内审·arXiv 联网核实：本节点引 Agent Contracts token 降 90% 对应 arXiv:2601.08815，WebFetch 重核论文身份「Agent Contracts: A Formal Framework for Resource-Bounded Autonomous AI Systems」(Ye & Tan, 2026) 与引述一致,论文身份已核(0 存疑)。待核实项 (a) Acharya 79%（非 arXiv，单源行业数字）、(b) 90% token 独立复现（单篇实验室数字复现）均非论文身份待核,保留不动。