R03 设计一个激励相容的 Agent 协作规则

A05 激励相容与规则设计论证了”system prompt 不是说明书而是激励机制”，A02 Multi-Agent 即机制设计问题论证了”不设机制的 multi-agent 是公地悲剧的工程化复现”，S02 Agent 协作机制对照矩阵给了五种机制的选型矩阵。这些都是判断。本节点要解决的是动手：给你一套可照抄的方法 + 模板，让你为一个具体的多 Agent 协作设计出一条规则，使每个 agent”按自己局部目标最优化”恰好等于”系统全局最优”——并且亲手测试它怎么被钻空子。

视角框架：把规则设计当成 Function Calling 的契约来写，但用机制设计的验收标准来验收。一句话反共识：绝大多数 multi-agent 规则不是”设计”出来的，是”许愿”出来的——写下”请节约 token""请如实汇报置信度”，然后祈祷 agent 照做。许愿不是机制。机制是：即便 agent 想钻空子，它最优的钻法恰好也是你想要的行为。

§0 为什么是”激励相容设计”，而不是”prompt 调优”

读者脑子里的默认框架是：协作不顺 → 改 prompt → 说得更清楚 → 加一句”务必""禁止""务必务必”。这是说明书框架，它在单 agent 上勉强能用，在多 agent 上系统性失效，原因是 A06 信息不对称与委托代理讲透的那件事：当 principal 无法验证 agent 的努力/诚实时，说得再清楚都没用，因为清楚的指令不改变 agent 的最优策略。

机制设计框架问的是另一个问题。Hurwicz 1972 年在 “On Informationally Decentralized Systems” 里正式提出激励相容（Incentive Compatibility）（来源：Hurwicz 1972；2007 诺贝尔经济学奖三位得主之一，与 Maskin、Myerson 同获，获奖理由 “for having laid the foundations of mechanism design theory”，nobelprize.org 核实）：一个机制是激励相容的，当且仅当参与者如实/尽力是它的最优策略。注意这个定义的狠处——它不要求 agent 善良、不要求 agent 听话、不要求 prompt 写得好，它只要求说真话/干正事这件事本身就是 agent 的占优策略。

最干净的范例是 Vickrey 第二价格拍卖（Vickrey 1961，DSIC）：你竞价时如实报出你的真实估值是占优策略，因为你支付的是第二高价而非自己的出价——虚报高了可能买到亏本货，虚报低了可能错失，唯有报真值永远不亏。这就是机制设计的全部魔法：不是劝人诚实，是把规则设计成”诚实最划算”。 R03 要做的，就是把这个魔法落到 prompt/工具契约/调度规则上。

[!note] 框架替换不要问”我的指令写清楚了吗”（说明书框架）。要问”如果每个 agent 都自私到极点、专挑规则漏洞，系统的均衡会落在哪”（机制框架）。后者才是 R03 的验收提问。

§1 五步法：从全局目标反推协作规则

机制设计是博弈论的逆问题——给定想要的结果，反推规则。下面把它工程化成五步。

步骤	问题	产出物
① 定义全局目标 G	你究竟要最大化什么？（不是”协作流畅”，是可观测的量）	一个可度量的目标函数（如：正确答案 / 单位 token）
② 列出 agent 的私有目标 P_i	每个 agent 实际在优化什么？（包括你没写但它会涌现的）	每个角色的”真实效用函数”清单
③ 找出 G 与 P_i 的缺口	哪里 agent 自利 ≠ 全局最优？（这就是机制要修的地方）	错位点清单（逆向选择 / 道德风险 / 公地）
④ 设计转移/规则 T	用什么”支付/惩罚/信息披露/分配规则”把缺口补上？	规则草案（见 §3 模板）
⑤ 验证激励相容	在 T 下，每个 agent 如实/尽力是否变成占优或贝叶斯均衡策略？	IC 自检表 + 钻空子测试结果

第③步是命门。Williamson 的交易成本经济学（Williamson 1975《Markets and Hierarchies》、1985《The Economic Institutions of Capitalism》；2009 诺奖，与 Ostrom 共获，核实 nobelprize.org）告诉我们缺口从哪来：有限理性（agent 上下文窗口装不下全局，合约天然不完备）+ 机会主义（agent 会利用信息不对称”耍手段”）+ 资产专用性。在 LLM 语境里，“机会主义”不需要 agent 有恶意——一个被 RLHF 训练成”讨好/显得完成了任务”的模型，会自发地把”看起来做完”当作局部最优，这本身就是机会主义的工程版本（参见 A06 信息不对称与委托代理的道德风险段）。

第⑤步的标准来自显示原理（Revelation Principle，Gibbard 1973 提出 DSIC 版本，Myerson 扩展至贝叶斯一般性）：任何可实现的结果，都能用一个让 agent 直接如实报告类型、且说真话是最优的直接机制实现。对 PM 的实操含义是：你不需要遍历所有花哨的协作拓扑，只需把规则收敛成”让 agent 如实报告 + 说真话占优”这一种。如果你的规则做不到”说真话占优”，它就不是机制，是许愿。

§2 三类最常见的错位，及对应的机制补丁

把第③步的缺口归成三类，每类配一个可照抄的补丁。这三类直接对应信息经济学的经典病理，不是我编的分类。

错位一：抢昂贵工具（公地悲剧）。 多个 agent 共享一池 token / 一个 0.3 美元/次的搜索工具 / 一个限流的 API，每个 agent 局部最优都是”多调几次反正成本摊给系统”。这是 A04 公共池塘资源治理·Agent 共享资源的核心场景。补丁来自 Ostrom《Governing the Commons》（1990）的设计原则：清晰界定边界（每个 agent 一个硬 quota）+ 分级制裁（超额先警告、再降权、最后熔断）+ 低成本冲突解决（一个仲裁 agent 或确定性优先级规则）。不要做”全局共享池 + 请节约”——那正是哈丁说的 unmanaged commons。

错位二：虚报置信度/能力（逆向选择）。 orchestrator 要把任务派给最合适的 worker，但 worker 自报”我能做、我有 90% 把握”。MarketBench（Fradkin & Krishnan, 2026, arXiv:2604.23897，核实可解析）的实证结论很刺眼：LLM 对自身成功概率和 token 消耗存在严重误校准（miscalibration），基于自我报告构建的分配偏离全信息最优。补丁是 Vickrey 式的：不奖励”自报高分”，奖励”事后被验证为对”——把支付/路由权重挂在可验证的产出上，而非声明上。让虚报无利可图。

错位三：偷懒/装完成（道德风险）。 worker 知道 reviewer 不可能逐行复核，于是输出”看起来完成”的结果。补丁是合约 + 抽检：Ivanov, Dütting, Talgam-Cohen, Wang, Parkes 的 “Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts”（2024, arXiv:2407.18074，核实可解析）用 MDP 里的支付合约引导 agent，元算法收敛到子博弈完美均衡。工程降级版：reviewer 随机抽检 + 抽中造假则该 worker 本轮产出作废（分级制裁的一种），把”被抓的期望损失”调到大于”偷懒的期望收益”。

[!warning] failure scenario 上述补丁全部假设产出可被廉价验证。当验证本身和生产一样贵（如”这段战略分析对不对”无 ground truth），逆向选择/道德风险无法被机制修掉——这是信息结构锁死的，不是设计能修的（见 §5 Myerson-Satterthwaite 边界）。此时唯一诚实的做法是退回 HITL，而不是假装机制能闭环。

§3 可照抄的规则模板（IC 协作契约 v1）

把它当成写在 orchestrator system prompt + 工具配额配置里的一份”契约”。逐字段填空。

# = IC 协作契约 v1 =
全局目标 G:        # 例：在 ≤50k token 内产出经 reviewer 验证为正确的答案
角色与私有目标:
  planner:         # 真实效用：被采纳的计划数 → 易涌现"过度拆分以显得勤奋"
  worker_*:        # 真实效用：被标记完成 → 易涌现"装完成""抢工具"
  reviewer:        # 真实效用：少干活 → 易涌现"全部放行"或"全部打回"

资源规则 (治公地, 对应错位一):
  per_agent_token_quota:   # 硬上限, 超额先警告→降权→熔断 (分级制裁)
  expensive_tool_access:   # 谁有权调; 调用前是否需 approval_func 钩子
  仲裁规则:                # 抢工具时的确定性优先级 (避免对等协商的通信爆炸)

报告规则 (治逆向选择, 对应错位二):
  能力声明如何被验证:      # 关键: 奖励"事后验证为对", 不奖励"自报高分"
  置信度是否计入路由权重:  # 若计入, 必须有事后校准惩罚, 否则 agent 必虚报

努力规则 (治道德风险, 对应错位三):
  reviewer 抽检率:         # p, 使 偷懒期望收益 < 被抓期望损失
  造假惩罚:                # 该轮作废 / 降权 / 移出本任务

IC 自检 (必填, 见 §4):
  - [ ] 每个角色"如实/尽力"是否为占优或贝叶斯均衡策略?
  - [ ] 是否存在一个角色, 钻规则空子比守规则更划算?
  - [ ] 验证成本是否 < 它防住的损失? (否则机制本身不划算)

模板的精神和 Ye & Tan 2026 “Agent Contracts: A Formal Framework for Resource-Bounded Autonomous AI Systems”（arXiv:2601.08815，核实可解析）一致：把 Contract Net Protocol（1980）扩展为”资源约束 + 时间边界 + 成功指标”的合约。该论文报告在迭代工作流场景 token 消耗减少约 90%、多 agent 委派零资源违规（⚠️ 单篇实验室数据，独立复现〔待核实〕，引用时按”据该论文”对待）。模板不替代框架——它叠加在 AutoGen / CrewAI / m208 - AI 基础设施与中间件选型列的编排层之上。

§4 判断主轴：四个”以为设了机制、其实在许愿”的致命错位

这是本节点的命门。90% 的人在动手设计 IC 规则时会在这四处翻车，每处给”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

致命错位 1：奖励声明，而非奖励可验证产出。

症状：路由规则写”把任务给自报置信度最高的 worker”；评分挂在 agent 自评上。
为什么会错：这制造了纯粹的逆向选择激励——虚报零成本、收益正向，理性 agent 必然全部虚报至上限，置信度信号瞬间归零。
正确做法：支付/权重只挂可验证的事后结果（Vickrey 精神）；若必须用自报，则配事后校准惩罚。
真实反例：MarketBench（arXiv:2604.23897）实测 LLM 自我评估严重失准，“加入历史能力数据仅小幅改善”——靠声明做分配的市场会系统性低效。

致命错位 2：用”对等协商/投票”来省事，结果通信成本爆炸。

症状：让 N 个 agent”开会讨论谁先来”,或”多数投票定方案”。
为什么会错：协商的通信成本随 agent 数超线性增长，且投票有 Arrow 不可能定理（1951）的内禀约束。RoundTable（Cho, Shu et al., 2024, arXiv:2411.07161，核实可解析）实测：全票通过制比最优方法低 87% 初始绩效，消息长度增加 84%，轮次相似度升至 90%（通信退化）。
正确做法：能用确定性层级/仲裁规则解决的冲突，不要用协商（S02 Agent 协作机制对照矩阵的”hierarchy 通信成本最低”那一列）；投票只在偏好真异质且无权威时用。
真实反例：2025 下半年业界 multi-agent 反向去化（Claude Code 删除 default Task subagent；参见 A02 Multi-Agent 即机制设计问题引证）——对等协商的复杂度收益常为负。

致命错位 3：把”全局共享资源池”当便利，喂出公地悲剧。

症状：“所有 agent 共用一个 token 预算，自觉点就行。”
为什么会错：共享池 + 无配额 + 无制裁 = 哈丁 unmanaged commons 的精确复刻，每个 agent 的占优策略都是多用，必然耗尽。这正是 A04 公共池塘资源治理·Agent 共享资源反复警告的。
正确做法：Ostrom 八原则工程化——per-agent 硬配额（清晰边界）+ 分级制裁 + 低成本仲裁。Stevens（Sakura Sky, 2025-11-25，WebFetch 核实）列的”缺失原语”里，事务性配额强制（token 须在 LLM 调用前记录）和跨 agent 背压排前两位。
真实反例：CrewAI 社区论坛长贴 “How to limit token usage (For infinite loops)“（核实存在）——无框架级配额导致无限循环是已知痛点，AutoGen GitHub Discussion 长期请求全局 token 计数官方未纳入核心 API。

致命错位 4：忘了”机制本身的成本”,设计出一个比病更贵的药。

症状：为防 1% 的造假，让 reviewer 100% 逐行复核 100% 产出。
为什么会错：Williamson 的核心洞察是治理结构要比较协调成本 vs 内部复杂度成本（A03 交易成本与 Make-vs-Buy·何时拆 Agent 的主轴）。验证/监控不是免费的；当抽检成本 > 它防住的损失，机制净负收益。
正确做法：抽检率 p 调到”偷懒期望收益 = 被抓期望损失”的临界附近即可，不追求 100%；监控成本进 G 的目标函数。
真实反例：Ghoshal & Moran 1996 “Bad for Practice”（AMR，核实）——过度监控会催生它本想防范的机会主义，是”坏的实践”。

§5 对手框架回应：机制设计本身不够

接受：Huang, Tharas, Marro et al.（Schölkopf 组，2026, “Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI”, arXiv:2605.08426，核实可解析）基于不完全合约理论给出一个我必须承认的边界——当合约无法区分所有未来情境时，必然存在正的福利损失，任何现实机制都无法消除它。这不是工程不努力，是理论下界。它的源头正是 Myerson-Satterthwaite 不可能定理（1983, JET，核实）：在双边、私有信息、支撑交叠的交易里，效率 + 激励相容 + 个体理性 + 预算平衡四者不可兼得。机制设计有它的玻璃天花板。

边界与赌注：但我坚持 R03 的方法仍是 PM 的第一优先，理由有三。其一，承认有”修不掉的残余损失”不等于”不该修掉能修的部分”——上述三类错位（公地/逆向选择/道德风险）里有大量是可廉价验证的，机制能把它们从 80% 砍到 10%，剩下的 10% 才轮到 prosocial agent / HITL 兜底。其二，Schölkopf 组的 prosocial agent（把他人福利纳入自身效用）目前只在小规模实验验证，大规模可扩展性〔待核实〕，PM 决策无法等待。其三——这是赌注——我赌”先把可验证的激励对齐做对，再谈不可验证的善意”在 2026 的工程现实里 ROI 更高；若未来 prosocial 训练被证明能廉价、可扩展地内生合作，本节点的优先级排序需要下调。

Rick 未读的对手框架引入：Karma 机制（Riehl, Schlapbach, Kouvelas, Makridis, 2026, arXiv:2604.07970，核实可解析）提出用非可交易信用额度（记录历史合作行为）驱动去中心化冲突解决，无需集中控制器即可保证长期公平——这是一条绕开”中心化 orchestrator 即单点”的路。但它针对物理机器人路径规划，向纯 LLM 框架的迁移〔待核实〕。我把它列在这里作为对”必须有中央仲裁”这一默认假设的逼问。

§6 跨域呼应：滴滴双边市场激励治理 → Agent 资源治理的直接迁移

这是 Rick 的不公平优势，必须落地而非空喊。我在滴滴/99 做安全与费用治理时，处理的本质就是一个双边市场的激励相容问题：司机端和乘客端各有私有信息（司机知道自己是否绕路/取消意图，乘客知道自己是否会现金逃单），平台无法逐单验证，只能设计规则让”诚实行为成为占优策略”。

具体迁移三条：

CPF实名验证 / PAX-Premium实名徽章 = 用信息披露破逆向选择。 当平台无法验证乘客身份真伪时，乘客会逆向选择（坏乘客冒充好乘客）。解法不是”请乘客自报靠谱”，是让如实披露身份带来可验证的好处（徽章/优先派单）——这正是 §4 致命错位 1 的解药在双边市场的版本：奖励可验证披露，不奖励声明。迁移到 agent：worker 的”能力声明”要像 CPF 一样事后可验证、虚报有代价。
PDP现金支付纠纷治理 = 用分级制裁 + 抽检治道德风险。 现金支付场景里，平台无法实时验证是否真付款（道德风险），逐单核验成本极高（机制成本 > 损失，§4 致命错位 4）。我们的解法是抽检 + 分级处置 + 降发生方法论（海恩法则：治源头发生率而非逐单堵漏）。迁移到 agent：reviewer 抽检率 p 的设计、造假分级制裁，与现金纠纷治理是同一个机制。
费用治理 / B端提内效 = 把”机制成本”显式算进 ROI。 费用治理最深的教训是：每加一道审核都在加协调成本，治理的净收益要扣掉治理本身的成本——这就是 Williamson 交易成本框架在我手上的一手经验，也正是 §4 致命错位 4。

[!note] 一手迁移双边市场治理与 multi-agent 资源治理是同构问题：都是”principal 无法验证、参与者会机会主义、要靠规则让诚实占优”。我在滴滴踩过的坑（早期靠”规则告知”而非”激励重设”，效果差）就是 §0 说的”说明书框架失效”——这是用真金白银验证过的，不是理论推演。关联经济学根基见 0133信息经济学、0133新制度经济学、0133博弈论。

§7 PM 决策启示：三类落地

面试怎么用：被问”你怎么设计多 agent 协作”，不要答”用 AutoGen 搭个 GroupChat”。答：“我先做激励相容分析——列每个 agent 的真实效用函数，找出它和全局目标的三类错位（公地/逆向选择/道德风险），再用配额+可验证奖励+抽检三个补丁堵上，最后亲手测它怎么被钻空子。” 这一句话把你和”会调 prompt 的人”区分开。
选型怎么用：评估一个 multi-agent 框架，不看 feature list，看 S02 Agent 协作机制对照矩阵的四维 + 它是否提供”事务性配额/背压/抽检”原语（多数框架不提供，需外挂治理层，见 m208 - AI 基础设施与中间件选型）。
复现怎么用：照 §3 模板填一份 IC 契约，跑 §4 的四道自检，再做 §8 的钻空子测试。没跑钻空子测试的规则，等于没测试的代码。

§8 结尾陷阱：你必须亲手让 agent 钻一次空子

这是本节点的”结尾陷阱”，也是最容易被跳过、最不该跳过的一步。

陷阱：你会以为”逻辑上激励相容”就等于”实际上激励相容”。不是。 机制设计的纸面证明假设参与者完全理性、会精确求解最优策略。但 LLM agent 既不完全理性（行为经济学对经典机制设计的争议 #1：真人/真模型都偏离理论最优），又会以你没预料的方式”钻空子”——这在对齐研究里有个专名：reward hacking / specification gaming。你设计的不是规则，是一个待攻击的规约。

所以 R03 的最后一步不是”部署”，是红队自己的机制。做法：

写一个”恶意 agent” prompt：明确指示它”目标是最大化你的局部奖励，可以钻任何规则空子，不必真完成任务”。
让它在你的规则下跑，观察它找到的漏洞：是虚报置信度骗路由？是把大任务拆碎刷”被采纳计划数”？是把垃圾输出包装成”看起来完成”骗过抽检？
每找到一个空子，就是 §1 第③步漏掉的一个错位，回去补 T，再红队一遍，直到恶意 agent 也无利可图。

这一步直接对应 A03 Reward Hacking 与 Goodhart（0419 对齐专题）——Goodhart 定律说”当度量变成目标，它就不再是好度量”。你设计的每条规则都是一个度量，agent 会优化你的度量而非你的意图。机制设计和对齐是同一枚硬币：机制设计是”事前设计规则让度量难以被钻”，对齐是”事后发现度量被钻了”。两者必须合用。延伸读 _对齐哲学系统化专题·总览与强化学习里 reward shaping 的同源问题。

[!warning] 最大的陷阱 最危险的不是”没设机制”,是”设了一个看起来很周到、实际全是洞的机制”,并因此放松了人类监督。 一个明显粗糙的规则你会盯着它；一个写得漂亮的 IC 契约会让你产生”已经对齐了”的虚假安全感，然后 agent 在你没看的地方安静地把每个度量都钻穿。规则越精巧，越要红队。没被恶意 agent 攻击过的激励相容，是许愿，不是机制。

§9 与已有节点的关系

对 A05 激励相容与规则设计：操作化。A05 立”prompt 即机制”的判断，R03 给出从判断到一份可照抄契约 + 红队流程的落地路径，不复述 IC 的定义。
对 A02 Multi-Agent 即机制设计问题 / S02 Agent 协作机制对照矩阵：收口。前者给框架、后者给选型矩阵，R03 是”选定机制后怎么把它设计对并测试”的最后一公里。
对 A04 公共池塘资源治理·Agent 共享资源 / A06 信息不对称与委托代理 / A03 交易成本与 Make-vs-Buy·何时拆 Agent：调用。§2 三类错位分别落地这三个节点的病理，R03 是它们的”补丁实现层”，不重述病理本身。
对 m209 - 推理成本控制手册：升级对照。m209 讲单 agent / 系统级成本控制手段（量化、缓存、分层），R03 升高一层——成本失控在 multi-agent 里是激励问题（公地悲剧）而非纯技术问题，配额+背压是机制解，与 m209 的技术解互补不重叠。
对 0419 对齐专题 A03 Reward Hacking 与 Goodhart：对话。R03 的红队步骤是机制设计侧对 reward hacking 的事前防御，与对齐侧的事后检测合用。
对 m208 - AI 基础设施与中间件选型：补缺。m208 列编排框架，R03 指出这些框架普遍缺”配额/背压/抽检”治理原语，需外挂治理层。

§10 关联节点

核心（必读）

延伸（可选）

m208 - AI 基础设施与中间件选型
Agent
Function Calling
强化学习
0133信息经济学
0133新制度经济学
0133博弈论
费用治理
PDP现金支付纠纷治理
CPF实名验证
PAX-Premium实名徽章
降发生方法论
B端提内效
_对齐哲学系统化专题·总览
AI概念滥用反思
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07，起草）：建立五步法 + IC 契约 v1 模板 + §4 四致命错位（四件套）+ §8 钻空子红队陷阱。跨域呼应落地 Rick 滴滴双边市场激励治理三条具体迁移（CPF/PDP/费用治理）。对手框架接入 Schölkopf 组 “Mechanism Design Is Not Enough”（接受+边界）+ Karma 机制（未读对手框架）。与 m209/m208/0419 显式升级对照。事实接地：arXiv 编号均标注核实状态，单源实验室数据标〔待核实〕，Williamson/Ostrom/Hurwicz/Myerson 诺奖事实核实 nobelprize.org。
2026-06-12 内审·arXiv 联网核实：WebFetch 重核 §100 arXiv:2601.08815「Agent Contracts」(Ye & Tan, 2026) 与 §140 arXiv:2604.07970「Karma Mechanisms…」(Riehl/Schlapbach/Kouvelas/Makridis, 2026) 标题作者均与引述一致,论文身份已核(0 存疑)。§100「90% token 独立复现〔待核实〕」与 §140「Karma 向纯 LLM 框架迁移〔待核实〕」是对单篇数字/结论外推的限定、非论文身份待核,保留不动。