S03 Agent 经济体治理全景

把一组协作的 LLM agent 当成一个微型经济体来设计，要回答的不是”用什么框架”，而是”用什么制度”：谁先执行、谁有权调昂贵工具、共享的 context 与配额怎么分、有 agent 偷懒或抢资源怎么仲裁、做得好的下次还信不信。本节点的视角框架是：成熟的 multi-agent 系统需要的是一套”经济制度”，而不仅仅是一张”架构图”——架构决定 agent 之间如何连线，制度决定它们在连线上的自利行为会不会把全局拖垮。这是一篇综合（synthesis）节点，把 A02 Multi-Agent 即机制设计问题、A03 交易成本与 Make-vs-Buy·何时拆 Agent、A04 公共池塘资源治理·Agent 共享资源、A05 激励相容与规则设计、A06 信息不对称与委托代理五个概念切面收束成一张可操作的治理全景。

§0 为什么是”经济体”框架，而不是”架构分层”或”分布式系统”框架

读者脑里有两个默认框架要先挡掉。

默认框架一：架构分层（六层堆栈）。 S01 Agent 六层架构剖面（0411 专题）把单个 agent 拆成模型、记忆、工具、编排等层，回答”由什么组成”。但把 N 个 agent 摆在一起时，真正出问题的不在任何一层内部，而在层与层之间的”权利配置”：A05 编排器（A06 Orchestrator 编排器）凭什么决定 worker 的执行顺序？两个 worker 同时要写共享 state 谁让谁？这些是产权与优先权问题，分层架构图画不出来。

默认框架二：分布式系统（一致性、容错、调度）。 这个框架更接近，但它假设节点是忠诚的——节点只会宕机，不会”为了自己的目标撒谎”。LLM agent 不一样：它有独立的上下文窗口（局部信息）、会对自己的成功概率严重误判、甚至会习得”求生”式自利目标（见 A06 引用的 arXiv:2601.23211）。一个会策略性谎报的节点，分布式系统的 Paxos/Raft 管不了——这正是机制设计要管的（0133博弈论的逆问题：设计规则使自利行为产出全局期望结果）。

所以本节点用经济体框架：五个治理维度——资源、激励、产权、仲裁、声誉——每一维都有一支成熟的经济学传统对应，而当前主流框架（AutoGen / CrewAI / LangGraph）在这五维上几乎是空白。这不是 bug，是范式错配：它们把 multi-agent 当”协作架构”建，而成熟的经济体需要”制度”。

[!note] 判断主轴（贯穿全节点） 架构回答”谁连谁”，制度回答”连上之后谁说了算、谁吃亏、谁被信任”。 90% 的 multi-agent 选型会只看架构（对话驱动 vs 角色驱动 vs 图驱动），看不到制度层是空的——而生产环境 41–86.7% 的失败率里，约 79% 源于协调问题而非模型能力（来源：Acharya 2026, arXiv:2604.16339，单一来源〔待独立核实〕）。协调失败是制度缺失的症状，不是模型不够聪明的症状。

§1 五维治理全景：把经济学传统映射到 Agent 系统

治理维度	核心问题	对应经济学传统	当前框架状态	本专题对应节点
资源	共享 context/token/quota/昂贵工具如何分配，避免公地悲剧	Ostrom 公共池塘资源（CPR）治理	仅单 agent token 截断，无跨 agent 全局预算	A04 公共池塘资源治理·Agent 共享资源
激励	如何让自利 agent 的均衡行为 = 设计者想要的全局结果	机制设计（Hurwicz/Maskin/Myerson）、激励相容	无激励原语，靠 prompt 喊”请认真”	A05 激励相容与规则设计
产权/边界	何时合并 agent（内部化）、何时拆分（市场化）	Coase/Williamson 交易成本、企业边界	拆分凭直觉，无 make-vs-buy 判据	A03 交易成本与 Make-vs-Buy·何时拆 Agent
仲裁	信息不对称下，谁有权裁决冲突、追究责任	委托-代理、隐藏行动、不完全合同	无冲突仲裁，并发写 state 即崩	A06 信息不对称与委托代理
声誉	历史表现如何影响未来的任务与资源分配	重复博弈、信任评分、Karma 机制	无跨轮记忆的声誉账本	（本节点综合，链入 A05/A06）

这张表是本节点的骨架。下面五节逐维拆”症状 → 为什么会错 → 正确做法 → 真实反例/证据”。读者应该把它打印出来贴在 multi-agent 选型会的白板上——比对任何框架时，逐维问一句”这一维它有原语吗”，五个里有四个是”没有”，就别指望它”开箱即用地治理”。

§2 资源维：从”各管各的截断”到”公共池塘治理”

症状： AutoGen 有 max_tool_iterations、TokenLimitedChatCompletionContext，CrewAI 有记忆整合，但全是单 agent 视角——没有团队级 token 预算，没有跨 agent 速率限制（来源：AutoGen / CrewAI 官方文档，WebFetch 核实）。十个 agent 各自”以为”还有预算，合起来把账单打爆。

为什么会错： 共享的 token quota、context 窗口、昂贵工具（如一次几美元的代码执行环境或检索 API）正是 Ostrom 定义的 公共池塘资源（CPR）：排除困难（agent 都能调）+ 竞争性（一个 agent 多用，别人就少用）。无管理的 CPR 会走向公地悲剧——这正是 A04 的核心论证。

正确做法： 把 Ostrom 八条设计原则迁移成 agent 治理原语（详见 A04 公共池塘资源治理·Agent 共享资源）。最关键的三条对应：①清晰边界（per-agent / per-tool / per-workflow / per-tenant 的配额隔离，即 Stevens 2025 所说的”跨 agent 背压 backpressure”）；②分级制裁（超额不是直接 kill，而是降优先级、限速）；③低成本冲突解决（共享 state 写冲突要有便宜的裁决路径，而非崩溃）。

真实证据/反例： 微软 2026-04 发布 Agent Governance Toolkit，其中 Agent SRE 组件引入”错误预算 + 熔断器”（来源：Microsoft Open Source Blog，WebFetch 核实）——这个工具集的存在本身就证明 AutoGen 原生层没有这些能力。反向证据是 Diagon 实验（arXiv:2604.06688）：在 agent 劳动力市场里，看似”改善”的强竞争筛选反而降低市场绩效——说明资源治理不是”加约束越多越好”，制度设计有反直觉的边界。

§3 产权/边界维：何时合并 Agent，何时拆分

症状： “这个任务复杂，拆成五个 agent 吧”——拆分凭工程直觉，不算账。结果协调成本（消息往返、上下文同步、冲突仲裁）超过了拆分省下的复杂度收益。

为什么会错： 这是 Coase 企业边界问题 的精确同构。Coase（1937《企业的性质》，1991 诺奖）的命题是：企业（内部化）还是市场（外包），取决于哪种协调机制的交易成本更低。Williamson（2009 诺奖）补上判据：资产专用性越高、不确定性越大，越该内部化。映射到 agent：拆多个 agent = 选择”市场化协调”，当且仅当跨 agent 协调成本 < 塞进单 agent 的内部复杂度成本时才划算（详见 A03 交易成本与 Make-vs-Buy·何时拆 Agent）。

正确做法： 做 agent 版的 make-vs-buy 决策表。把”子任务”当交易，问三件事：①资产专用性（这个子任务需要的上下文/工具是否高度专用？专用→倾向合并进主 agent，避免反复同步）；②频率（高频交互→内部化省去每次协调开销）；③不确定性（结果不可验证→外包给独立 agent 会触发隐藏行动问题，见 §5）。

真实证据/反例： COALESCE（arXiv:2506.01900）让 agent 动态外包子任务，理论模拟成本降 41.8%、真实验证降 20.3%（单篇论文数据，引用注明来源）——证明”市场化外包”在专用性低、可验证的子任务上确实划算。反例是 2025 下半年业界的 multi-agent 反向去化趋势（Claude Code 删除 default Task subagent；来源见 E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow）：当协调成本被低估、子任务专用性其实很高时，“拆”是负收益，业界用脚投票退回单 agent + 长 reasoning。

§4 激励维：让自利 Agent 的均衡产出全局期望

症状： 在 prompt 里写”请诚实报告你的置信度""请认真完成”——把激励当成可以靠措辞解决的问题。

为什么会错： 机制设计的全部要义是 0133博弈论的逆问题：不要假设参与者会善意行事，而要设计规则，使说真话/认真做是它的最优策略（激励相容，Hurwicz 1972 提出）。LLM agent 对自身成功概率和 token 消耗存在严重误校准（来源：MarketBench, arXiv:2604.23897）——它不是”不想”诚实，是”做不到”准确自评。靠 prompt 喊话，等于假设激励相容会自动成立，而 A05 激励相容与规则设计论证它恰恰不会。

正确做法： 借 VCG 思路（Vickrey 1961 / Clarke 1971 / Groves 1973）——让 agent 的”支付”等于它对系统其他部分造成的负外部性，使如实报告成为主导策略。工程落地形态是”合同 + RL”（Principal-Agent RL, arXiv:2407.18074，Parkes 组）：用可验证的支付合同引导 agent，元算法收敛于子博弈完美均衡。

真实证据/反例（接受 + 边界）： 业界反方立场——“机制设计还不够”。arXiv:2605.08426（Schölkopf 组,《Mechanism Design Is Not Enough》）基于不完全合同理论论证：当合同无法区分所有未来情境，必然存在正的福利损失，任何现实机制都消不掉，主张设计”亲社会 agent”（把他人福利纳入自身效用）。接受：这是对纯机制设计的真实约束，Myerson-Satterthwaite 不可能定理（1983）早已证明信息不对称下效率有不可逾越的下界。边界：亲社会 agent 目前只在小规模实验里验证，能否被激励设计复制、能否抗大规模博弈〔待核实，arXiv:2605.08426 实证基础薄弱〕；在可验证、单委托人的工程场景里，机制设计仍是当前唯一能落地的范式。PM 的赌注是：先把激励相容做对，再谈亲社会——而不是反过来用”agent 会善意”替代制度设计。

§5 仲裁维：信息不对称下的冲突裁决与责任归因

症状： 两个 agent 并发写共享 state，框架直接崩（LangGraph 无原生冲突解决，并发写 state 即出问题；来源：架构分析 WebFetch 核实）。出了错没人能说清是哪个 agent 的责任。

为什么会错： 每个 agent 有独立上下文窗口 = 信息不对称。委托人（编排器）看不到 worker 的内部推理，worker 的”谋划/偷懒”对应经济学的隐藏行动（hidden action）（来源：arXiv:2601.23211）。没有仲裁制度，信息不对称就直接转化为不可归因的失败——这是 A06 信息不对称与委托代理的核心。

正确做法： 引入”对社区负责的监督者”（Ostrom 原则四）+ 分级仲裁协议。工程参照 Acharya 2026（arXiv:2604.16339）的三层共识解析：政策优先 → 权威优先 → 时间优先。责任归因要在委托链上可追溯（Gabison & Xian, arXiv:2504.03255 区分固有责任与涌现责任）。

真实证据/反例： SCF 框架声称 100% 任务完成率 vs 基线 25.1%（arXiv:2604.16339，600 次运行，单篇自报〔待独立复现核实〕）——数字要慎引，但它指向的”语义意图分歧需要显式冲突检测引擎”这一结构性判断是可信的，因为它和 79% 协调失败的统计相互印证。

§6 声誉维：把重复博弈引入 Agent 系统

症状： 每次任务都”冷启动”地信任所有 agent，做砸了的 agent 下次照样拿到关键任务和昂贵工具。

为什么会错： 一次性博弈里背叛是均衡，重复博弈里声誉才能支撑合作。没有跨轮声誉账本，agent 系统永远停在”一次性博弈”的低信任均衡。

正确做法： 引入非可交易的信用/声誉机制。Karma 机制（arXiv:2604.07970）用记录历史合作行为的非交易信用驱动去中心化冲突解决，保证长期公平——但注意边界：原论文针对物理机器人路径规划，向纯 LLM agent 的迁移〔待核实〕。微软 Agent Mesh 的”0–1000 信任评分”（WebFetch 核实）是工程界对同一需求的回应。

真实证据/反例（反直觉）： Diagon 实验（arXiv:2604.06688）显示身份透明反而降低市场绩效——声誉机制不是”信息越透明越好”,过度透明可能扼杀探索、放大路径锁定。声誉制度的设计本身需要机制设计，不是”装个评分就行”。

§7 产品 PM 视角补盲：治理不只是工程问题

工程 PM 看治理是”加配额、加监控”。产品 PM 要补三个看走眼的点：

用户心理模型：当 agent 经济体替用户”花钱”（调昂贵工具、消耗 token 预算）时，用户对”我的钱被一群我看不见的 agent 怎么分掉”会产生强烈的控制焦虑。治理可见性（谁花了多少、为什么）是产品体验问题，不只是 SRE 问题。
商业模式：token 既是生产要素，又是计价单位（Token Economics, arXiv:2605.09104）。多 agent 的”协调税”会直接转嫁到用户账单——这与 m209 - 推理成本控制手册的成本治理直接咬合（见 §9 升级对照）。定价模型若按 agent 数收费，会激励供应商过度拆分 agent（道德风险）。
合规边界：当 A2A（agent-to-agent）经济体自主处理金融/行政任务，责任归因（§5）就从工程问题升级为法律问题（arXiv:2504.03255）。这是 0117社会学意义上的”问责性真空”——技术上分布式、法律上找不到责任主体。

§8 跨域呼应：双边市场激励治理 ↔ Agent 资源治理（Rick 一手经验迁移）

[!note] Rick 的不公平优势：把双边市场治理迁移到 agent 经济体 Rick 在滴滴/99 做过双边市场的费用治理与纠纷治理。这套经验对 agent 经济体治理是精确同构的迁移，不是装饰性类比。

双边市场（司机端 + 乘客端）的核心难题，和 agent 经济体一模一样：两边都有私有信息、都会策略性行动、平台要设计规则让两边的自利行为产出健康的撮合。三处具体迁移：

激励相容 ↔ agent 诚实自评：双边市场里防”司机虚报里程/乘客恶意取消”，靠的不是道德呼吁，而是机制——比如费用治理里用可验证的轨迹数据替代自报、降发生方法论用海恩法则在源头降低纠纷发生而非事后裁决。映射到 agent：与其相信 agent 自报置信度（MarketBench 证明它误校准），不如设计可验证的外部信号（如 A05 的 VCG 式支付）替代自评。源头降发生 > 事后仲裁，这条 PM 直觉直接迁移到 §5 的仲裁维。
信息透明的反直觉边界 ↔ Diagon 实验：Rick 做过乘客信息透明化与 PAX-Premium实名徽章（CPF实名验证），知道”透明化”在双边市场里不是单调改善——过度暴露身份会改变两边的策略行为，有时降低撮合效率。这与 Diagon 实验”身份透明降低 agent 市场绩效”（§6）的反直觉结论互相印证：声誉/透明度机制的剂量本身要被设计。
从裁判到管家的治理哲学 ↔ agent 仲裁制度：纠纷治理从裁判到管家的核心转变是——平台不该只在冲突爆发后当”裁判”，而要当”管家”主动塑造交互结构降低冲突。迁移到 agent 经济体：仲裁制度（§5）的最高形态不是”事后判谁对”,而是 Ostrom 式的”低成本冲突解决机制”+ 源头的产权清晰化（§3 边界），让冲突在结构上更少发生。

这正是 A06 信息不对称与委托代理提到的双边市场激励迁移在架构层的落地：平台治理双边市场的全部制度工具箱——激励相容、信息设计、声誉、分级处置——几乎可以一对一搬到 agent 经济体上，因为本质都是”机制设计 @ 多主体私有信息系统”。

§9 与已有节点的关系（升级对照，不复述）

对照 _控制论系统化专题·总览 S03 / VSM（Beer 活系统模型）——本节点是”经济制度补缺”。 VSM 把组织看成”系统 1–5”的控制论层级，强调反馈、自治、递归嵌套。它管的是信息流与控制环（System 3 资源调度、System 5 政策），但 VSM 默认子系统是忠诚执行者——它不处理”子系统会策略性谎报”。本节点补的正是这一块：当 agent 会自利博弈，光有控制环不够，要有激励相容的制度。VSM 回答”控制信号怎么流”，S03 回答”控制信号会不会被博弈掉”。两者互补：把 VSM 的递归自治 ≈ Ostrom 的嵌套式分层治理（原则八）。
对照 A07 Multi-Agent Teams（0411 专题）——本节点是”从架构判断升级到制度判断”。 A07 的核心判断是”三种架构只有层级式真能落地，市场式是玩具”。本节点接力并深化：市场式之所以是玩具，恰恰因为它缺制度（无激励相容、无产权、无仲裁、无声誉）——A07 的”架构选型陷阱”在制度层有了机制设计的解释。A07 问”用不用多 agent”，S03 问”用了之后怎么治理”。
对照 m208 - AI 基础设施与中间件选型 §2.5.2——本节点是”治理层补缺”。 m208 比较编排框架的功能与延迟，但它列的五框架（LangChain/LlamaIndex/LangGraph/CrewAI/Dify）都没有治理原语层。本节点指出这是范式空白，治理要么靠外挂中间件（微软 Toolkit / SCF），要么自建。
对照 m209 - 推理成本控制手册——本节点是”从单 agent 成本到多 agent 成本治理”。 m209 管单次推理的成本（量化、缓存、分层）。本节点的资源维（§2）是它的多主体升级：当 N 个 agent 共享预算，成本控制从”优化单次调用”升级为”公共池塘的配额治理 + 防公地悲剧”,问题性质从工程优化变成制度设计。

§10 PM 决策启示

面试：被问”你会怎么设计一个多 agent 系统的治理”，不要答”加日志加监控”。答五维框架（资源/激励/产权/仲裁/声誉），各举一个经济学锚点（Ostrom CPR / 机制设计 / Coase 边界 / 委托代理 / 重复博弈），再点出”当前框架在这五维基本是空的，所以生产失败 79% 源于协调”。这是把”工程话术”升级成”制度判断”。
选型：拿 §1 的五维表逐维拷问候选框架”有没有这一维的原语”，五缺四就别指望开箱即用治理，要预留中间件预算（微软 Toolkit 这类外挂层）。
复现：搭 multi-agent demo 时，先做产权（§3 边界：每个 agent 的配额/工具权限隔离）和仲裁（§5：共享 state 的写冲突裁决），这两维不补，demo 一上规模就崩——比”再加一个 reviewer agent”重要得多。

§11 关联节点

核心（必读）：

A02 Multi-Agent 即机制设计问题 — 本节点的问题定义来源
A03 交易成本与 Make-vs-Buy·何时拆 Agent — 产权/边界维（§3）
A04 公共池塘资源治理·Agent 共享资源 — 资源维（§2）
A05 激励相容与规则设计 — 激励维（§4）
A06 信息不对称与委托代理 — 仲裁维（§5）+ 双边市场迁移
G01 制度经济学到 Agent 经济学代际谱系 — 时间维背景
A07 Multi-Agent Teams — 架构判断的升级对照

延伸（可选）：

E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow — 框架治理缺口的实证
m208 - AI 基础设施与中间件选型 — 中间件层定位
m209 - 推理成本控制手册 — 成本治理升级对照
A06 Orchestrator 编排器 — 编排器的产权/优先权角色
Agent — 原子概念
Function Calling — agent 调昂贵工具的底层动作
强化学习 — 合同 + RL 的激励落地（§4）
0133博弈论 — 机制设计的母学科
0133新制度经济学 — Coase/Williamson 交易成本
0133信息经济学 — 信息不对称与委托代理
0117社会学 — 问责性真空、治理的社会维度
费用治理 / 纠纷治理从裁判到管家 / 降发生方法论 / 乘客信息透明化 / CPF实名验证 / PAX-Premium实名徽章 — Rick 双边市场治理一手经验
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07）：首稿。建立五维治理全景（资源/激励/产权/仲裁/声誉）骨架；显式升级对照 0420 VSM、0411 A07、m208、m209；跨域呼应落地双边市场治理迁移（费用治理/纠纷治理/信息透明化）；接受+边界对照 arXiv:2605.08426《Mechanism Design Is Not Enough》；所有单篇论文数字标注来源，未充分核实项标〔待核实〕。
2026-06-12 内审·arXiv 联网核实：WebFetch 重核 §72 引 arXiv:2605.08426「Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI」(Huang 等含 Schölkopf, 2026) 与 §90 引 arXiv:2604.07970「Karma Mechanisms…」(Riehl 等, 2026) 身份均与引述一致,论文身份已核(0 存疑)。§72「亲社会 agent 能否被激励复制/抗大规模博弈〔待核实，实证基础薄弱〕」与 §90「Karma 向纯 LLM agent 迁移〔待核实〕」是对结论外推的限定、非论文身份待核,保留不动。