R02 用交易成本判据决定拆不拆 Agent · 知识库

一个任务摆在你面前，你要决定让它跑在一个 agent里，还是拆成多个 agent 协作——这是 2026 年 AI PM 在选型会上被问得最多、也最容易凭”看起来很复杂就该拆”直觉拍脑袋的决策。本节点提供一个可填表、可估算、可被反驳的判据：把”拆不拆 agent”重铸为 Coase 1937 年那道老问题——企业边界。Coase 的回答是：当”在企业内部多组织一笔交易的成本 = 在市场上完成同等交易的成本”时，边界达到均衡。把”市场”换成”agent 之间的消息传递、context 同步、结果校验”，把”企业内部”换成”单个 agent 的上下文窗口与推理链”，你就有了一把比直觉硬十倍的尺子。本节点的视角名叫交易成本判据（Transaction Cost Test）。

[!warning] 一句话反共识拆 agent 的真正成本不是”多花的 token”，而是协调成本（coordination cost）——信息不对称、消息序列化/反序列化、跨 agent 校验、失败传播。90% 的 multi-agent 设计在这里栽：他们以为拆了能”分工提效”，实际是把一个连续推理链切断成几段，再花更多 token 把切口缝回去。

§0 为什么是 Coase 边界，而不是”任务复杂度”框架

读者脑中默认的拆分框架通常是**“任务复杂度阈值论”**：“任务越复杂，越该拆多 agent。” 这个框架是错的，必须先挡掉。

复杂度不是拆分的判据，复杂度的归属位置才是。一个高复杂度但信息内聚（所有所需上下文能同时装进一个推理链）的任务，单 agent 反而更优——因为拆开后每个子 agent 都得重新建立上下文，协调成本爆炸。反过来，一个低复杂度但信息天然分散（不同子任务依赖完全不同的知识源、工具权限、数据域）的任务，拆开反而省事。

Coase（1937，“The Nature of the Firm”，Economica，386–405；本节点关键引用经 WebFetch 核实）给的判据不是”复杂度”而是比较成本：

内部复杂度成本（单 agent 路线）= 把所有职责塞进一个 agent 的上下文管理成本 + 推理负载 + 单点故障代价。Coase 称之为”组织内多组织一笔交易的递增成本”。
协调成本（多 agent 路线）= agent 之间的搜寻、谈判（谁先做、谁有权调用工具）、执行监督、校验成本。这正是 Coase 所说的”利用价格机制的成本”，在 multi-agent 语境里就是 A2A 通信开销。

[!note] 框架级辨析（挡掉默认错误）

错误框架判据为什么误导
任务复杂度阈值论 ”复杂就拆” 把”复杂度”和”信息分散度”混为一谈；高复杂度但内聚的任务拆了更糟
拟人组织类比 ”像公司一样设角色分工” 角色化≠自主性；给 agent 起名”研究员/审稿人”不改变协调成本结构
Coase 边界（本节点） 内部复杂度成本 vs 协调成本，谁更低 唯一同时刻画两条路线代价、可被填表估算的判据

错误框架	判据	为什么误导
任务复杂度阈值论	”复杂就拆”	把”复杂度”和”信息分散度”混为一谈；高复杂度但内聚的任务拆了更糟
拟人组织类比	”像公司一样设角色分工”	角色化≠自主性；给 agent 起名”研究员/审稿人”不改变协调成本结构
Coase 边界（本节点）	内部复杂度成本 vs 协调成本，谁更低	唯一同时刻画两条路线代价、可被填表估算的判据

这把尺子和本专题 R01 给 Multi-agent 加资源配额机制（协议层”怎么拆”）正交：R01 解决”拆了之后通信怎么搭”，R02 解决”该不该拆”。先用 R02 判断要不要拆，再用 R01 实现怎么拆。

§1 两条成本曲线：交易成本经济学的三大决定变量

Williamson（1932–2020，2009 年与 Elinor Ostrom 共获诺贝尔经济学奖；生卒与获奖年份经 WebFetch 核实 Wikipedia/UC Berkeley 新闻稿）把”何时内部化、何时外包”（make-or-buy）的判据具体化为三个决定变量。这三个变量直接映射到 agent 拆分决策：

Williamson 变量	经济学原义	Agent 决策映射	高值 → 倾向
资产专用性 (Asset Specificity)	资产投入特定交易后在他处贬值的程度	子任务所需的专属上下文/工具权限/领域知识有多”不可共享”	高 → 拆（专用 agent 独占该资产，不污染主链）
不确定性 (Uncertainty)	未来情形不可预见，合约天然不完备	子任务输出的格式/质量是否可预先规约	高 → 不拆（拆了校验成本爆炸，单链端到端更可控）
频率 (Frequency)	同类交易重复发生的次数	该子任务是否高频复用	高 → 拆（一次性建专用 agent，多次摊销协调成本）

[!note] 致命耦合点这三个变量不能孤立看。Williamson 的核心洞见是：高资产专用性 + 高不确定性同时出现时，会触发”套牢问题”（hold-up，Klein/Crawford/Alchian 1978，Journal of Law & Economics；年份与期刊经 WebSearch 核实）。映射到 agent：当一个子 agent 独占关键上下文（专用性高）且输出不可预先规约（不确定性高），主 agent 就被它”套牢”——主链无法绕过它、又无法验证它的输出对错，只能照单全收。这是 multi-agent 最隐蔽的失败模式。遇到高专用性 + 高不确定性，宁可不拆，把它内部化进单 agent 的端到端推理链。

把这三个变量画成两条曲线，就是 Coase 的均衡图（[示意]，非实测数据）：

graph LR
    subgraph 决策区
    A["任务信息分散度 / 资产专用性 →"] 
    end
    B["内部复杂度成本曲线<br/>(单 agent: 随职责增多陡升)"]
    C["协调成本曲线<br/>(多 agent: 随 agent 数增多陡升)"]
    D["⚖️ 交叉点 = Coase 边界<br/>左侧:单 agent 更优 / 右侧:多 agent 更优"]
    B --> D
    C --> D

§2 交易成本估算框架：六项可填表的成本

抽象的”协调成本”必须可估算才有用。下面把它拆成六项可观测、可打分的子成本。每项按任务实际情况打 0–3 分（0=可忽略，3=极高），分别累加成”内部复杂度成本 I”与”协调成本 C”。

内部复杂度成本 I（单 agent 路线的代价）

子成本	含义	打分线索
I1 上下文压力	所有职责所需上下文是否撑爆窗口	接近/超过窗口 = 3；绰绰有余 = 0
I2 推理负载	单链是否要同时持有多个相互干扰的目标	目标互相打架（如”既要全面又要精简”）= 3
I3 单点故障代价	一步错是否会污染整条链且无法局部回滚	错误会级联且不可隔离 = 3

协调成本 C（多 agent 路线的代价）

子成本	含义	打分线索	接地
C1 通信开销	跨 agent 消息序列化/反序列化、context 重建	子任务需大量共享上下文 = 3	RoundTable（arXiv:2411.07161，经 WebSearch 核实可解析）实测多 agent 通信退化：消息长度增加 84%，与前轮相似度升至 90%
C2 信息不对称	各 agent 独立 context 窗口导致局部观察	子 agent 看不到全局必需信息 = 3	”MAS Should be Treated as Principal-Agent Problems”（arXiv:2601.23211，经核实）：各 agent 独立上下文窗口是固有缺陷
C3 校验成本	主 agent 验证子 agent 输出对错的代价	输出对错难以快速判定 = 3	MarketBench（arXiv:2604.23897，经核实）：LLM 对自身成功率严重误校准，自评是市场协调瓶颈
C4 仲裁/调度成本	”谁先执行、谁有权调用昂贵工具”的决策开销	多 agent 争抢同一工具/配额 = 3	当前框架（AutoGen/CrewAI/LangGraph）均无跨 agent 配额与优先级仲裁原语（WebFetch 核实官方文档）

判据： 若 I 之和 > C 之和，拆；若 C ≥ I，不拆。临界区（差值 ≤ 2）默认不拆——因为协调成本有大量隐性长尾（失败传播、调试难度），实践中系统性被低估。这与 0411 A07 Multi-Agent Teams 的结论一致：“必要性根本来源是上下文窗口装不下，而非单 agent 不够聪明”——即只有 I1 上下文压力 = 3 才是拆分的”硬”理由，其余多为”软”理由。

§3 决策模板：一张能打印贴墙的表

把 §2 落成可直接用的工作表。下面是两个真实风格的填表样例（任务设定为示意，打分为框架演示，非实测）：

模板表

	I1 上下文	I2 推理	I3 单点	I 合计	C1 通信	C2 信息不对称	C3 校验	C4 仲裁	C 合计	判据
任务	0–3	0–3	0–3	Σ	0–3	0–3	0–3	0–3	Σ	I>C?

样例 A：「读 50 个网页 → 综合成报告」

	I1	I2	I3	I	C1	C2	C3	C4	C	判据
深度调研	3	2	2	7	1	1	1	1	4	I>C → 拆

解读：50 个网页的原文塞不进单窗口（I1=3，硬理由），但各网页彼此独立、子 agent 各读一批无需共享上下文（C1/C2 低），综合阶段由主 agent 收口。这是资产专用性低、信息天然分散的典型，拆分（fan-out 子 agent）成立。对应 0411 A06 Orchestrator 编排器的 map-reduce 模式。

样例 B：「根据用户模糊需求，写一个带状态的功能」

	I1	I2	I3	I	C1	C2	C3	C4	C	判据
编码任务	1	2	2	5	3	3	3	1	10	C>I → 不拆

解读：需求模糊（高不确定性）+ 代码各部分强耦合（拆给不同 agent 会丢上下文，C1=3、C2=3）+ 对错难快速判定（C3=3）。这正是 Williamson 的”高专用性 + 高不确定性 = 套牢”场景。结论与 0411 E01 Coding Agent·Claude Code & Cursor 暗合，也呼应 2025 下半年业界”Claude Code 删除 default Task subagent”的收敛趋势（业界推测级证据，见 E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow）。

[!warning] 判断主轴：90% 的人在这里会搞错的 3 个点

错点 1：把”能拆”当成”该拆”。 症状：看到任务有几个步骤，就给每步配一个 agent。为什么会错：步骤可分 ≠ 信息可分；连续推理链被切断后要花 C1+C2 把上下文缝回去。正确做法：只在 I1（上下文压力）=3 时才认真考虑拆。真实反例：RoundTable（arXiv:2411.07161）显示，多 agent 协作中通信退化使消息相似度升至 90%——agent 们在”重复缝合”而非”分工”。

错点 2：只算 token 账，不算协调账。 症状：用”多 agent 总 token 更少”论证拆分合理。为什么会错：拆分省下的是 I（单链负载），但新增了 C1–C4，而 C3 校验成本和 C4 仲裁成本几乎从不被计入预算。正确做法：用 §2 六项表把 C 显式打分。真实反例：当前主流框架（AutoGen/CrewAI/LangGraph）连跨 agent token 预算原语都没有（WebFetch 核实），意味着 C4 在工程上根本无法被框架自动管控，全靠人工——这本身就是 C 极高的证据。

错点 3：忽视套牢问题，拆出一个不可验证的关键子 agent。 症状：把核心判断（如”这段代码安全吗”）外包给一个专用 agent，主链照单全收。为什么会错：高专用性（只有它有该上下文）+ 高不确定性（输出对错难判）= 主链被套牢。正确做法：关键且不可验证的职责必须内部化进主链，或加 HITL 校验。真实反例：MarketBench（arXiv:2604.23897）证明 LLM 自评严重失准——子 agent 自报”我做对了”不可信，C3 校验成本被系统性低估。

§4 产品 PM 视角补盲：拆 agent 不只是工程账

跳出工程 PM 视角，拆分决策还有三个”看走眼”点：

用户心理模型成本（隐性 C5）。 多 agent 系统对用户暴露的”延迟波动”与”中间态不可解释”会损伤信任。用户看到一个 agent 时有清晰的责任主体；看到多个 agent 互相甩锅时，归因困难。“Liability Issues in LLM Agentic Systems”（arXiv:2504.03255，经核实）专门论证了 agentic 系统的责任在委托链中”涌现”、难以归因——这是产品层的真实成本，不在 token 账里。
商业模式与计价单位。 若产品按”任务”计价而成本按”token”发生，多 agent 的协调开销会侵蚀毛利。Rick 在滴滴做费用治理时的核心经验可直接迁移：成本发生方与计价方错配是治理的根源问题。多 agent 的 C4 仲裁成本就是”昂贵工具的内部转移定价”问题——谁有权调用 GPT-class 模型、谁只能用小模型，本质是内部资源配额机制设计。
合规与可审计性。 单 agent 的决策链是一条可追溯的 trace；多 agent 的决策分散在多条 trace 里，监管/事故复盘时拼接困难。在受监管场景（金融、安全），这项成本可能直接否决拆分方案。

§5 对手框架回应：交易成本判据自己会在哪失效

接受 + 边界，不做装饰性自我肯定。

对手立场 1：Ghoshal & Moran（1996，“Bad for Practice: A Critique of the Transaction Cost Theory”，Academy of Management Review；标题与期刊经 WebSearch 核实）——交易成本理论是”同义反复”。他们的批评是：TCE 事后总能解释任何已观察到的组织形式（凡存在的都”节约了交易成本”，凡失败的都”算错了”），因而难以证伪。接受：本节点的六项打分表确实有事后合理化的风险——你可以调分数让结论符合你已有的偏好。边界：所以本框架的价值不在”算出唯一正确答案”，而在强制你显式写下 C3 校验成本和 C4 仲裁成本——这两项是直觉最容易漏掉的，把它们摆上桌就已经赢了一半。框架是”反偏见的检查清单”，不是”预言机”。

对手立场 2：Granovetter（1985，“Economic Action and Social Structure: The Problem of Embeddedness”，American Journal of Sociology；经 WebSearch 核实）——交易成本框架忽略社会嵌入与信任。他批评 TCE 预设行为人只有机会主义，忽视信任与规范。接受：在 agent 语境里，这对应”同底模 agent 之间是否真有’机会主义‘“的质疑——同一个 Claude 实例拆成多个 agent，它们不会”互相欺骗”，C2 信息不对称是技术性的（context 窗口隔离），不是博弈性的。边界：但这恰恰强化而非削弱本框架——既然 agent 间没有真实信任可依赖（不像人类组织能用关系降低协调成本），协调成本 C 就更纯粹地是技术开销，更应被冷静估算，而不能指望”团队默契”自动消化。

对手立场 3（Rick 未读的对手框架）：「机制设计不够」(arXiv:2605.08426，“Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI”，Schölkopf 组，经核实）。该文基于不完全合同理论论证：当合同无法区分所有未来情境时，必然存在正的福利损失，任何现实机制都无法消除——解药是设计”亲社会”agent（把他人福利纳入自身效用）。对本节点的逼问：交易成本判据假设你能通过”设计好边界”消除协调损失，但不完全合同理论说总有残余损失消不掉。回应边界：这正是为什么 §2 临界区默认”不拆”——承认存在算不准的残余协调成本，于是在不确定时偏向保守（单 agent）。本框架不追求消除损失，只追求”别在明显该单 agent 时硬拆”。

[!note] failure scenario 显式标注本判据在以下场景失效：(a) 超长时程任务（如运行数天的 agent），此时单 agent 的上下文压力 I1 会随时间累积，静态打分失真——需动态重估；(b) 异构工具权限硬隔离场景，拆分是合规强制要求而非成本优化，判据被外部约束覆盖；(c) 同底模 vs 异底模：判据隐含假设拆出的 agent 能力相近，若拆分是为了用”专用小模型省钱”，则要把 m209 - 推理成本控制手册的分层成本账叠加进来，C 的估算逻辑要改。

§6 跨域呼应：双边市场激励 ↔ agent 资源治理（Rick 一手经验迁移）

[!note] 跨域调度：从滴滴双边市场到 agent 资源治理本框架最容易被忽略的成本是 C4 仲裁成本——“谁先执行、谁有权调用昂贵工具”。这在经济学上不是”成本核算”问题，而是机制设计问题：如何设计规则，使每个 agent 的自利行为（都想抢占昂贵工具、都想优先执行）产出全局期望的结果。

Rick 在滴滴/99 做双边市场（司机-乘客撮合）的一手经验在此可直接迁移。双边市场的核心矛盾是：司机想接高价单、平台想最大化整体成交，两者激励不一致；解法不是命令式调度，而是设计激励规则（动态定价、派单权重）使司机的自利选择恰好逼近全局最优。这正是机制设计的”激励相容”（Incentive Compatibility，Hurwicz 1972 提出；经 WebFetch 核实）思想。

把这套迁移到 multi-agent：

滴滴双边市场	Multi-Agent 资源治理
司机抢高价单（自利）	agent 抢占昂贵工具/大模型配额（自利）
派单权重设计	工具调用优先级 / 配额分配机制
动态定价激励供给	边际成本定价（“边际效益=边际成本+延迟成本+风险成本”，arXiv:2605.01214 提出，经核实）抑制过度调用
激励相容 → 司机说真话报位置	激励相容 → agent 不虚报”我需要昂贵工具”

这条迁移的尖锐推论：当你在 §2 给 C4 打高分时，本质是在说”这个任务需要一套机制设计才能协调多 agent 对昂贵资源的争用”——而机制设计本身是一项重投入。 如果一个任务的协调需要你下场设计配额机制，这强烈暗示它不该拆——直接用单 agent 把资源争用问题”内部化”消除掉，正是 Coase 企业边界理论的原意：企业之所以存在，就是为了用”权威”替代”市场议价”，省掉每笔交易都要重新谈判（设计机制）的成本。这与本专题 R03 设计一个激励相容的 Agent 协作规则（怎么设计机制）形成因果链：R02 告诉你”需要设计机制 = 信号该不拆”，只有当拆分不可避免时，才进入 R03 真正动手设计机制。

链入：0133博弈论、0133信息经济学、费用治理、0117社会学。

§7 PM 决策启示：三类落地

面试怎么用： 被问”什么时候用 multi-agent”，不要答”任务复杂时”——这是淘汰答案。答：“我用交易成本判据：比较单 agent 的内部复杂度成本和多 agent 的协调成本（通信/信息不对称/校验/仲裁四项），只有上下文窗口装不下这个硬约束触发时才拆，临界区默认单 agent。” 再补一句套牢问题（高专用性+高不确定性=不拆），面试官会知道你读过 Williamson。
选型怎么用： 选型会上拿出 §3 模板表当场填，把 C3 校验成本和 C4 仲裁成本逼到台面上——这两项是工程团队最爱忽略、产品最后买单的成本。用填表把”我觉得该拆”变成”分数显示 C>I，不该拆”。
复现怎么用： 动手前先填表。若判据 = 拆，再去 R01 给 Multi-agent 加资源配额机制搭通信、R03 设计一个激励相容的 Agent 协作规则设机制；若判据 = 不拆，直接用单 agent + 长 reasoning + 工具集（2026 年 PM 选型默认，见 E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow）。

§8 与已有节点的关系（升级对照，不复述）

对 0411 A07 Multi-Agent Teams 做”深化 + 操作化”：A07 给出了”上下文窗口装不下才是拆分根本理由”这一概念判断，并提供三题判断真伪 multi-agent。本节点不复述这些结论，而是把”装不装得下”这个二元判断升级为六项可打分的成本估算框架，并补上 A07 未展开的”协调成本由哪几项构成、如何与内部复杂度成本权衡”。A07 回答”何时是真 multi-agent”，R02 回答”何时该拆”。
对 0420 控制论 VSM 做”对话”：VSM（Viable System Model）从控制论角度论证”系统需要递归的自治子单元”——这看似支持拆分。本节点提供经济学的对冲视角：自治子单元的协调成本不是零，VSM 的”递归自治”在 agent 语境里要付 C1–C4 的代价。两者不矛盾：VSM 说”什么结构能存活”，TCE 说”这个结构值不值得这个协调成本”。
对 m208 - AI 基础设施与中间件选型做”判据前置”：m208 §2.5.2 比较编排框架（怎么搭多 agent）。本节点是 m208 的前置决策：先用 R02 判断该不该上编排框架，再用 m208 选哪个框架。不复述 m208 的框架对比。
对 m209 - 推理成本控制手册与 0413 成本专题做”显式升级对照”：m209/0413 算的是单 agent 内部的推理成本（token、KV Cache、量化）。本节点把成本账升一个抽象层到”agent 间的协调成本”——这是 m209 完全没覆盖的维度。m209 帮你把单 agent 跑便宜；R02 帮你判断要不要为了”省单 agent 的钱”而拆出更贵的协调成本。两者叠加：拆分若为省钱，必须把 m209 的分层成本账（C 的失效边界 c）算进来。

§9 关联节点

核心（必读）：

A07 Multi-Agent Teams — 本节点的概念上游（何时是真 multi-agent）
R01 给 Multi-agent 加资源配额机制 — 判据=拆之后的通信实现
R03 设计一个激励相容的 Agent 协作规则 — C4 仲裁成本的机制设计解
A06 Orchestrator 编排器 — map-reduce 拆分模式的实现
0133新制度经济学 — Coase/Williamson 的学科母体
费用治理 — Rick 一手经验：成本发生方与计价方错配

延伸（可选）：

E01 Coding Agent·Claude Code & Cursor — 样例 B（编码任务不拆）的实证
E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow — 2025 业界去化趋势
m208 - AI 基础设施与中间件选型 — 拆之后的框架选型
m209 - 推理成本控制手册 — 单 agent 内部成本账
0133博弈论 — 机制设计与激励相容的数学基础
0133信息经济学 — 信息不对称（C2）的理论根
0117社会学 — Granovetter 嵌入性批评入口
Function Calling — 工具调用（C4 仲裁的对象）
Agent — 原子概念
AI PM 知识图谱·总索引 — 全库总入口

修订日志

R1（2026-06-07）：首稿。建立交易成本判据框架（Coase 边界 + Williamson 三变量 + 六项成本打分表 + 决策模板），落地判断主轴三错点、对手框架三回应（Ghoshal & Moran / Granovetter / 机制设计不够）、跨域呼应（滴滴双边市场→agent 资源治理）、与 A07/VSM/m208/m209/0413 的升级对照。待 R2 grounding pass 核验 arXiv 编号解析状态与 Coase/Williamson 关键事实。