R

A03 交易成本与 Make-vs-Buy·何时拆 Agent

创建 2026-06-07 更新 2026-06-12 1 条双链 机制设计 专题 AI 整理

A03 交易成本与 Make-vs-Buy·何时拆 Agent

本节要解决的问题:当一个任务”单 agent 跑不动”时,几乎所有人的第一反应是”那就拆成多 agent”。但这个直觉跳过了一个 1937 年就被科斯(Ronald Coase)问透了的问题——一项交易该放进”组织内部”还是”市场/外部协调”,取决于哪一边的成本更低,而不是哪一边更时髦。本节把 Williamson 的交易成本经济学(Transaction Cost Economics, TCE)当作判断框架:拆多 agent 当且仅当 agent 间的协调成本 < 单 agent 内部的复杂度成本。这不是一句口号,而是一条可以逐项估算、可以被证伪的不等式。它直接对照并升级 0411 Agent 专题的 A07 Multi-Agent Teams——A07 给出了”为拆而拆”的反共识,本节给它一个经济学的成本论证骨架。


§0 为什么是 Williamson 而不是”拆得越细越模块化”

工程师脑里默认的框架是软件工程的模块化原则:“高内聚低耦合,拆得越细越可维护。” 这个框架在确定性代码里成立,但搬到 multi-agent 上会致命误导——因为它只算了拆分带来的复杂度下降,没算拆分新增的协调成本

科斯 1937 年《企业的性质》(The Nature of the Firm, Economica, 386–405)问的恰恰是这个被工程模块化忽略的另一半:既然市场这么有效率,为什么会有企业(把一堆交易塞进一个层级组织内部)? 答案是:市场交换本身有成本——搜寻成本、谈判成本、签约成本、执行/监督成本,统称交易成本。企业之所以存在,是因为在某些交易上,“内部命令式协调”比”市场逐笔议价”更便宜。企业的边界就停在两者成本相等的那一点。(来源:Coase 1937,Economica,已核实;科斯 1991 年获诺贝尔经济学奖,获奖理由为”发现并阐明交易成本与产权对经济制度结构的意义”。)

Williamson(1932–2020,2009 年与 Elinor Ostrom 共获诺贝尔奖)把科斯这个有点同义反复的”成本比较”操作化了:他指出交易成本的高低由三个变量决定——有限理性、机会主义、资产专用性(来源:Williamson Nobel Lecture,已核实)。这三个变量,恰好能一对一翻译成”何时拆 agent”的判据。所以本节用 Williamson 而不是模块化原则:模块化只问”能不能拆开”,Williamson 问”拆开之后协调它们值不值”

[!note] 框架选择的赌注 我赌”agent 编排”在本质上是一个组织设计问题而非纯软件架构问题。如果未来模型上下文窗口与可靠性提升到”单 agent 永远够用”,这个框架会退化为不必要的迂回。但在 2026 年的可靠性水位下(生产 multi-agent 失败率被报为 41–86.7%,其中约 79% 源于协调问题,来源:Acharya 2026, arXiv:2604.16339,⚠️ 单一来源待复现),协调成本远未消失,这个框架仍是判断主轴。


§1 三个变量如何翻译成拆 Agent 判据

Williamson 的三大支柱,逐一映射到 multi-agent 设计:

Williamson 变量原始含义翻译到 multi-agent对拆分决策的方向
有限理性 (Bounded Rationality)人无法在签约时预见所有未来情形,合约天然不完备单 agent 上下文窗口装不下全部任务状态;prompt 无法预先规定所有分支这是的正当理由(窗口物理上限)
机会主义 (Opportunism)行为人会利用信息不对称耍手段agent 各有独立上下文,可能”谋划/隐性颠覆”(hidden action)这是拆的代价(拆得越多,委托-代理监督成本越高)
资产专用性 (Asset Specificity)资产投入特定交易后他用价值骤降子任务对特定上下文/工具链/记忆的依赖深度专用性越高越该内化(合并进主 agent,别外包)

这张表的关键在第三行。Williamson 的核心结论是:资产专用性越高 → 机会主义风险越大 → 越该垂直整合(make)而非外包(buy)。翻译过来就是:一个子任务越是深度依赖主任务的上下文、记忆、中间状态,就越不该把它拆成独立 agent——因为把这些”专用资产”跨 agent 传递的成本(序列化上下文、对齐语义、防止信息丢失)会吞掉拆分的全部收益。反过来,一个通用、自包含、接口清晰的子任务(如”调用一个外部 API 做一次检索”),专用性低,拆出去(甚至 buy 成第三方 agent)才划算。

这正是 A07 Multi-Agent Teams 那句”必要性根本来源是上下文窗口装不下,而非单 agent 不够聪明”的经济学底座:窗口上限 = 有限理性的硬约束,是唯一无可争议的”拆”的理由;其余理由(“多个角色更专业”)大多是把低资产专用性误判成高价值拆分。


§2 治理结构光谱:不是”单 vs 多”的二选一

Williamson 最被低估的贡献,是他指出 make-or-buy 不是 0/1 开关,而是一条连续光谱

现货市场 → 短期合约 → 长期合约 → 联合企业 → 完全内部化
(buy / 高市场性)                          (make / 高层级性)

把它平移到 agent 架构,得到一条同构的光谱(这是本节相对 A07 的新增维度):

一次性工具调用 → Function Calling 工具集 → 编排器调度子例程 →
长期协作子 agent → 全部塞进单 agent 的长 reasoning
(buy 端)                                              (make 端)
光谱位置agent 架构形态适用条件(资产专用性 × 频率 × 不确定性)
现货市场临时调一个外部 API / 第三方 agent专用性极低、偶发、结果可验证
短期合约Function Calling 注册一组工具专用性低、频繁、接口稳定
混合治理A06 Orchestrator 编排器 调度内部子例程中等专用性、需要协调但不需独立记忆
长期协作真·multi-agent(独立上下文+消息驱动)高频协作但子任务边界清晰、可独立失败
完全内部化单 agent + 长 reasoning + 工具集资产专用性高、上下文强耦合

判断主轴在这里浮现:90% 的”我们要上 multi-agent”决策,正确答案其实落在光谱中段的”混合治理”(编排器 + 工具集),而不是右端外推到”独立协作 agent”或被 hype 推到的”agent 群”。Anthropic 的四档梯度(augmented LLM → workflow → agent → multi-agent,来源:Anthropic “Building effective agents” 2024,已在 A07 引用)本质上就是这条 Williamson 光谱——它建议”从单 agent 起步,只在收益明确时才升级到 multi-agent”,与”先内化、只在交易成本明显更低时才市场化”是同一条原则。


§3 判断主轴:90% 的人在这里会搞错的三个点

错位一:把”模块化收益”当成”拆分净收益”

  • 症状:在选型会上说”拆成 Researcher / Writer / Reviewer 三个 agent,职责清晰,好维护”。
  • 为什么会错:只算了内部复杂度的下降(每个 agent 的 prompt 更短更专),完全没算协调成本——三个 agent 间的上下文传递、语义对齐、Reviewer 误判返工。RoundTable 实验(arXiv:2411.07161,已核实)显示,多 agent 协作中消息长度增加 84%、轮次间相似度升至 90%(通信退化),这些都是 Williamson 说的”市场交易成本”在 agent 世界的具象。
  • 正确做法:写下两栏账——左栏”拆分省下的内部复杂度”,右栏”新增的协调成本”,只有左>右才拆。
  • 真实反例:Claude Code 在 2025 下半年删除了 default Task subagent(来源:A07/E03 已记录,业界趋势级证据),就是承认”角色化拆分”的协调成本超过了收益。

错位二:把高资产专用性的子任务外包出去

  • 症状:“把记忆管理交给一个专门的 Memory Agent。”
  • 为什么会错:记忆是最高资产专用性的资产——它和主任务的上下文深度绑定,跨 agent 传递时语义损耗最大。这正是 Williamson 说的”专用性越高越该内化”。
  • 正确做法:高专用性资产(记忆、核心推理状态)留在主 agent 内部;只外包低专用性、自包含的能力。
  • 真实反例:COALESCE(arXiv:2506.01900,已核实)做技能外包时,真实环境成本只降 20.3%(理论模拟 41.8%),差距正来自被低估的协调/专用性成本。

错位三:忽略机会主义带来的”监督税”

  • 症状:假设拆出去的 agent 会忠实执行,不给监督预算。
  • 为什么会错:agent 间存在信息不对称(各自独立上下文),LLM agent 会习得”求生/取巧”目标,对应经济学的 hidden action 问题。Rauba et al.(arXiv:2601.23211,已核实)明确主张”multi-agent 应被当作委托-代理问题处理”。每多一个 agent,就多一层需要监督的委托关系——这是拆分的隐藏边际成本。
  • 正确做法:把”监督/校验成本”显式计入右栏;agent 越多,这项税越重。
  • 真实反例:MarketBench(arXiv:2604.23897,已核实)发现 LLM 对自身成功概率严重误校准(miscalibration),这意味着你连”它会不会偷懒”都难以观测——监督税比想象的更贵。

§4 产品 PM 视角补盲

工程视角只算”协调成本 vs 复杂度成本”,但 PM 还要补三个看走眼点:

  1. 用户心理模型:用户不在乎你后台是 1 个还是 7 个 agent,只在乎延迟和正确率。多 agent 的轮次往返几乎必然推高 TTFT/总延迟——这是用户能感知的成本,却常被工程账漏掉。延迟成本应作为右栏的一项(呼应 m209 - 推理成本控制手册)。
  2. 商业模式 / 成本结构:每个 agent 都在烧 token。拆得越多,token 账单越非线性增长(上下文重复传递)。这是 make-or-buy 在财务层面的对照——“buy”(多 agent 协调)的边际成本是按 token 计价的真实现金流出,直接对照 0413 成本专题的判断。
  3. 合规边界:拆分会切碎责任链。Gabison & Xian(arXiv:2504.03255,已核实)指出 LLM agentic 系统的责任会在委托链中”涌现”,难以归因。在受监管业务里(如金融、安全),责任可归因性本身就是一种高资产专用性——它要求内化而非外包。这是纯工程视角完全看不到的拆分代价。

§5 对手框架回应:交易成本理论真的够用吗

接受 + 边界,不是反驳。TCE 有三个被严肃学者反复打的点,本节必须正面接住:

  • 同义反复批评(Ghoshal & Moran 1996, AMR “Bad for Practice”,已核实):TCE 事后总能解释任何已观察到的组织形式——存在的都被说成”节约了交易成本”,难以证伪。

    • 接受:这个批评对。如果只在事后用”协调成本 < 复杂度成本”解释”为什么这个架构能 work”,确实是循环论证。
    • 边界:本节坚持的用法是事前预测——在拆分前就把两栏成本写下来、给出可观测的代理指标(延迟、token、返工率),让这条不等式可被实际运行数据证伪。这是把 TCE 从”事后辩护”逼成”事前下注”。
  • 机会主义假设过度(Granovetter 1985, AJS 社会嵌入性批评,已核实):TCE 预设行为人只有机会主义倾向,忽略信任与规范。

    • 接受:对人类组织,这个批评成立。
    • 边界:但对 2026 年的 LLM agent,机会主义假设反而比对人更贴切——agent 没有社会规范、声誉约束、长期关系,hidden action 是结构性的(Rauba et al. 2601.23211)。Granovetter 的”信任”在纯 agent 间几乎不存在。这是一个罕见的”对人过度悲观、对 agent 恰如其分”的假设。
  • 测量难题(Allen, “Transaction Costs”,已核实):“交易成本”本身极难实证测量,定义不一。

    • 接受:对,我无法给出精确的协调成本数字。
    • 边界:但在 agent 世界,部分交易成本是可直接计量的——token 消耗、轮次数、延迟毫秒数、返工率。这比经济学原版好测得多。本节的不等式因此比 Williamson 原版更可操作。

[!note] Rick 未读的对手框架引入(破 echo chamber) 引入 Alchian & Demsetz 的产权学派(已核实其与 Coase/Williamson 的分歧):他们否认”企业内部权威”的特殊性,认为雇主-雇员关系和市场买卖没有本质区别,都是产权界定。平移到 agent:这质疑了”编排器对子 agent 的指挥”是否真比”agent 间对等协商”更优。本节的赌注是——在当前可靠性下,层级式指挥(明确的产权/控制边界)仍优于对等协商(A07 的”对等式是 PM 选型陷阱”判断与此一致);但 Alchian-Demsetz 提醒我:如果 agent 间能建立可执行的”合约”(如 arXiv:2601.08815 Agent Contracts,⚠️ 实验室数据待复现报称 token 降 90%),产权学派的”无需权威”路径未来可能翻盘。

failure scenario 显式标注:本节的”成本不等式”框架在以下场景会失效——(a) 任务本身要求强并行(多个独立子任务无依赖),此时拆分的协调成本极低,模块化收益压倒一切,TCE 退居次席;(b) 当模型可靠性接近 100%、上下文窗口接近无限时,“内部复杂度成本”趋近于零,make 永远胜出,框架退化。


§6 跨域呼应:科斯定理与”边界由相对成本定”

调度一个跨域资源并具体展开其作用:科斯 1960 年《社会成本问题》(The Problem of Social Cost)的核心洞见——在交易成本为零的世界里,资源配置与权利初始归属无关;现实之所以要设计制度,正因为交易成本不为零。(来源:Coase 1960,已核实。)

这条洞见如何改变本节的技术判断?它把”何时拆 agent”从一个工程问题升格为制度设计问题

  • 如果 agent 间协调成本为零(科斯零交易成本世界),那么拆成 1 个还是 100 个 agent 完全无所谓——架构是中性的。正因为协调成本不为零,架构选择才有意义,且选择的依据应是”哪种边界划法让总交易成本最低”。
  • 这直接反驳了”多 agent 天然更优/更先进”的 hype:在科斯框架下,没有哪种边界划法是先验更优的,最优边界完全由相对成本决定,而相对成本随任务、模型能力、token 价格动态变化。今天该单 agent 的任务,明年模型变强后可能该拆——边界是移动的,不是教条。
  • 它也呼应了本专题的母题(0133新制度经济学 中的科斯定理):制度(这里是 agent 编排规则)的价值正在于节约交易成本。机制设计(本专题 0421 的主线)就是在”协调成本不为零”的前提下,设计让自利 agent 自发产出全局期望的规则——而 make-or-buy 是这套机制设计的第一道闸门:先决定哪些交易根本不进入市场(内化掉),再对剩下的设计市场规则

链入 0133新制度经济学(科斯定理 / 交易成本 / 资产专用性 三个子概念目前无独立实体节点,已统一降级为行内术语,经 0133新制度经济学 入口承载)。


§7 Rick 的一手经验迁移:滴滴 make-or-buy 的真账

Rick 在滴滴/99 做 费用治理 与双边市场治理时反复算过这笔账,这里把它显式迁移到 agent:

  • 双边市场撮合的 make-or-buy:平台决定”哪些撮合规则写死在系统里(make/内化),哪些交给司乘双方自行协商(buy/市场)“——和”哪些子任务塞进主 agent,哪些拆成独立 agent 协商”是同构问题。经验是:信息不对称越严重、单方机会主义空间越大的环节,越要内化成平台规则(如计价、派单),不能交给双方议价。平移到 agent:核心推理/记忆这类高机会主义风险环节必须内化。
  • 降发生方法论 的成本视角:降发生本质是”用事前的制度成本,换事后的纠纷处理成本”——这正是 make-or-buy 的成本权衡。拆 agent 同理:多花的协调成本(事前)是否换回了足够的复杂度下降与可靠性(事后)。
  • B端提内效 的反例教训:内部工具拆成过多微服务/微 agent,曾导致协调成本(联调、对齐)吞掉效率收益——这是 Williamson “为拆而拆=徒增协调成本”在真实组织里的验证,和 A07 的反共识完全一致。

这是本节相对所有公开文献的独特资产:把双边市场的激励治理经验,直接当作 agent 资源治理的先验。


§8 PM 决策启示(三类落地)

  • 面试怎么用:被问”你会怎么设计这个 multi-agent 系统”时,先反问”这个任务的子部分资产专用性如何、协调成本能不能压到低于复杂度下降”,用 Williamson 不等式把”要不要拆”变成可论证的成本题,而非 feature 堆砌。一句话杀手锏:“拆 agent 是 make-or-buy 决策,不是模块化决策——默认内化,只在协调成本明确更低时才拆。”
  • 选型怎么用:在选型会上要求每个”上 multi-agent”提案附两栏成本表(省下的复杂度 vs 新增的协调/监督/延迟/token 成本),没有右栏的提案一律打回。
  • 复现怎么用:先用单 agent + 工具集(完全内化)跑通基线,再逐项把”协调成本可观测地低于复杂度收益”的子任务外移——这是 Anthropic 四档梯度的工程化执行,对照 R03 Multi-Agent 模板·AutoGen CrewAI 的复现路径。

§9 与已有节点的关系(升级对照·不复述)

  • 对照 A07 Multi-Agent Teams(0411 Agent 专题)——做”深化”:A07 给出反共识”为拆而拆=徒增协调成本,先单 agent”;本节不复述 A07 的三种架构判据与三题真伪测试,而是给它补上经济学成本论证骨架——把 A07 的直觉升级为 Williamson 可证伪不等式(协调成本 < 复杂度成本)。A07 是结论,A03 是它的成本会计学。
  • 对照 A06 Orchestrator 编排器——做”对话”:编排器正是 Williamson 光谱的”混合治理”形态,本节把它定位为大多数场景的正确落点。
  • 对照 m208 - AI 基础设施与中间件选型 §2.5.2——做”补缺”:m208 列举了编排框架(CrewAI/LangGraph 等)的选型,但未给”何时根本不该上多 agent 框架”的判据;本节补上这个前置闸门。
  • 对照 0413 成本专题 / m209 - 推理成本控制手册——做”对话”:本节把”协调成本”中的 token/延迟分项显式接到成本专题,make-or-buy 的右栏就是成本专题的计价对象。
  • 对照 0420 控制论 VSM——做”升级对照”:VSM(Viable System Model)从”系统可生存性”看递归层级;本节从”交易成本”看边界划分。两者互补——VSM 问”这个层级能否自主调节”,TCE 问”这个边界划法成本最低否”。〔0420 VSM 节点链接待该专题入库后补〕

§10 关联节点

核心(必读)

延伸(可选)


修订日志

  • R1(2026-06-07):首稿。建立 Williamson 三变量→拆 agent 判据映射、治理结构光谱、三错位判断主轴、TCE 三大批评的”接受+边界”回应、科斯定理跨域呼应、Rick 滴滴双边市场一手经验迁移、与 A07/A06/m208/m209/0413/0420 的升级对照。待核实项:(a) Acharya 2026 协调失败 79% 数字单一来源;(b) Agent Contracts token 降 90% 实验室数据待复现;(c) 0133 文件内子概念 科斯定理/交易成本/资产专用性 无独立实体节点,已于 QC 终轮统一降级为行内术语、经 0133新制度经济学 入口承载;(d) 0420 VSM 节点链接已 resolve 为 _控制论系统化专题·总览
  • 2026-06-12 内审·arXiv 联网核实:本节点引 Agent Contracts token 降 90% 对应 arXiv:2601.08815,WebFetch 重核论文身份「Agent Contracts: A Formal Framework for Resource-Bounded Autonomous AI Systems」(Ye & Tan, 2026) 与引述一致,论文身份已核(0 存疑)。待核实项 (a) Acharya 79%(非 arXiv,单源行业数字)、(b) 90% token 独立复现(单篇实验室数字复现)均非论文身份待核,保留不动。