A06 控制的极限·涌现与不可控
有些 agent 行为在原理上不可被完全控制——不是因为模型还不够聪明、上下文还不够长、orchestrator 还不够精密,而是因为控制本身有结构性的上界。本节点要回答的问题是:这个上界来自哪里、长什么样、以及一个 PM 在它面前应该停止追求”完全控制”、转而设计”韧性”。框架是控制论自己的两块基石——Ashby 的必要多样性定律(给出控制能力的硬上界)与 von Foerster 的二阶控制论(指出观察者本身就在系统里,所以”客观地完全掌握系统”在认识论上不成立)——再叠加 Perrow 的常态事故理论(给出”为什么紧耦合的复杂系统会必然出事”)。三者合起来构成一句判断主轴:面对足够复杂的 agent 系统,正确的工程目标是”出事了还能活”而不是”永远不出事”。
§0 为什么是”控制的极限”这个框架,而不是”工程还不够好”
读者脑子里默认的框架往往是:agent 之所以失控,是因为模型幻觉、上下文窗口太小、prompt 写得不够好、orchestrator 调度逻辑有 bug——也就是说,这些都是可修的工程缺陷,修完就能完全控制。这个默认框架是本专题要挡掉的第一个错误。
控制论给出的是一个更冷的判断:即使你把模型、上下文、调度全部做到当前理论最优,仍然存在一类失控是结构性的、不可消除的。区分”工程缺陷型失控”(可修)和”结构极限型失控”(不可修,只能设计韧性来共存)是本节点全部价值所在。这也正是它对 A07 Multi-Agent Teams 的”层级式可落地、对等式是陷阱”和 m207 - Agent 产品化:场景推演与失败模式 的”六类失败模式”的升高:那两个节点告诉你哪些会失败、怎么缓解;本节点告诉你哪些失败原理上缓解不掉,以及在那条线之后该换什么策略。
[!note] 与 失败考古学专题(失败显式升级)的分工(不复述) 0416 处理的是”失败发生后如何显式向上升级”——这是 Beer VSM 里 algedonic 信号的工程化(绕过层级直达高层的痛/乐信号),属于”控制回路内的补救”。本节点处理的是控制回路本身的天花板:有些行为连”被检测到并升级”都做不到,因为观察者无法表征它。两者是”补救机制”与”补救机制的失效边界”的关系,不重叠。
§1 第一道极限:必要多样性定律给出的硬上界
Ashby 在《An Introduction to Cybernetics》(1956)中把控制能力的上界写成了一个不等式:
$$V(R) \geq V(D) / V(E)$$
其中 $V(D)$ 是扰动的多样性(环境能制造多少种状态)、$V(R)$ 是调节器的多样性(控制器自己能进入多少种状态)、$V(E)$ 是允许泄漏到本质变量上的剩余多样性。简化即 $V(C) \geq V(D)$:控制器的状态多样性必须不低于它要应对的扰动多样性,否则控制在信息论上不可能完备。 Ashby 自己把这条直接对应到 Shannon 的信道容量定理(《Introduction to Cybernetics》10/1 节):调节行为本质是信息传输,信道容量不够就抵消不了等量扰动。Ashby 原文是 “Only variety can destroy variety”;Stafford Beer 普及成了 “Only variety can absorb variety”(两个版本侧重不同,见 A03 Ashby 必要多样性定律 的争议梳理,此处不复述)。
把这条落到 agent 工程上,得到一个反 hype 的具体判断:
orchestrator 的控制上界,等于它能可靠表征的状态多样性。而 orchestrator 表征状态靠什么?靠 context——它对 worker 的输出、工具的返回、环境的反馈所能纳入并区分的那部分信息。于是:
- context 不够 → requisite variety 不够 → 失控,是结构性约束,不是”模型不聪明”。 当一个客服 agent 面对的退款纠纷有 200 种法律/情绪/历史组合,而 orchestrator 的 context 只能把它们压缩区分成 30 种处理路径时,剩下 170 种里必然有一部分被错误归类——这不是 prompt 能修的,是 $V(R) < V(D)$ 的直接后果。
这对 PM 选型的含义很硬:当你发现 agent 在某个长尾场景反复出错,先别急着加 prompt 或换更大的模型,先问”这个场景的扰动多样性是否已经超过了我的控制器能表征的多样性”。如果是,加 prompt 是在错误的轴上用力。正确的动作是两类之一:要么用 attenuator 衰减输入多样性(把开放域问题约束成有限选项,这是 Beer VSM 里 S2 的活),要么承认这个长尾必须交还人类(HITL 断点,对应 m207 - Agent 产品化:场景推演与失败模式 的 HITL 三维度)。
[!note] 必要多样性是”必要”不是”充分” 满足 $V(R) \geq V(D)$ 只是控制可能成立的下限,不保证一定成功——还需要 Good Regulator 定理(Conant & Ashby, 1970)要求的”控制器必须是被控系统的模型”。但反过来,违反必要多样性则控制一定失败。所以它是个干净的证伪工具:控制器多样性 < 扰动多样性 → 这条控制链原理上死了。
§2 第二道极限:紧耦合 + 涌现 = 不可还原
Ashby 给的是单个控制回路的上界。多 agent 系统的失控还有一层更狠的来源:系统层面的涌现行为不可由单个组件的行为还原推导出来。这正是 IBM Research 那篇 “Agentic AI Needs a Systems Theory”(Miehling, Varshney et al., arXiv:2503.00237, 2025)的核心论点——AI 开发过于聚焦单模型能力,忽略了 agent 与环境、与其他 agent 交互所产生的涌现属性;单独验证每个 agent 都”正确”,合在一起仍可能整体失控。
这里跨域调度 Charles Perrow 的常态事故理论(Normal Accident Theory,《Normal Accidents: Living with High-Risk Technologies》, 1984)。Perrow 研究三里岛核事故后提出:当一个系统同时具备两个特征——交互复杂性(interactive complexity)(组件间存在非线性、非计划内的相互作用,操作员无法预先穷举)与紧耦合(tight coupling)(一处异常会快速、无缓冲地传导到别处,没有时间和余量去补救)——那么严重事故不是偶然,而是系统的常态属性(normal)。不是”会不会出事”,而是”什么时候、以什么形式出事”。
把 Perrow 的两个轴对照到 multi-agent 系统,吻合得惊人:
| Perrow 轴 | 核电站/化工厂 | Multi-Agent Agent 系统 |
|---|---|---|
| 交互复杂性 | 管道、阀门、传感器的隐藏耦合 | agent 共享 context/记忆/工具,推理上的微小差异在独立修改共享计划时被放大成 incompatible forks(来源:A04 反馈回路与稳定性 引述的正反馈放大机制) |
| 紧耦合 | 反应快、无缓冲、无替代路径 | 一个 agent 的错误输出直接成为下一个 agent 的输入,无人工审核缓冲 → 复合错误/雪崩效应(m207 - Agent 产品化:场景推演与失败模式 六类失败之一) |
Perrow 的结论翻译成 agent 工程就是:当你把多个 agent 紧耦合成一条无缓冲的自动流水线,并让它们共享可变状态时,你正在亲手制造一个”常态事故”系统。 Cemri et al.(arXiv:2503.13657, 2025)在 1600+ multi-agent 执行轨迹上标注出的 14 种失败模式里,最大一类正是”缺少终止信号导致的无限等待循环”——这就是紧耦合系统里典型的、无法靠优化单个 agent 来根除的涌现失败。
这条判断的 PM 落地非常直接,而且和直觉相反:多 agent 系统的可靠性,不是靠”让每个 agent 更强”来提升的,而是靠”解耦”——加缓冲、加余量、加可逆性来提升的。 Perrow 给出的减灾手段不是”把组件做得更可靠”(他证明了在紧耦合复杂系统里这条路收益递减甚至适得其反),而是降低耦合度:在 agent 之间插入人工审核断点(把紧耦合改成松耦合)、给关键步骤留回滚能力(把不可逆改成可逆)、给系统留时间余量(异步而非实时强制推进)。这恰好解释了为什么 A07 Multi-Agent Teams 判断”对等式架构是陷阱”:对等式正是最大化交互复杂性 + 紧耦合的架构,是 Perrow 意义上事故率最高的拓扑。
§3 第三道极限:二阶控制论的观察者问题
前两道极限假设了一件事:存在一个站在系统外、客观地观察并调节系统的控制器。这个假设本身,是控制论史上被推翻的那个假设。
一阶控制论(Wiener 时代,1940s–1960s)预设观察者在系统之外、客观中立、描述系统而不影响它,研究对象是”被观察的系统(observed systems)“。Heinz von Foerster 在 1974 年正式提出二阶控制论(second-order cybernetics),把它定义为 “the control of control and the communication of communication”(控制之控制、沟通之沟通),核心命题是:观察者本身进入了被观察的系统。 von Foerster 有句名言式的表述——“撰写大脑理论,需要一个大脑”;控制论家在描述一个系统时,他的描述行为、他选择观察什么、他的表征工具,都已经成为该系统的一部分。触发这场转向的是 Margaret Mead 在 1967 年美国控制论学会主旨演讲中的呼吁:控制论家必须自觉自己是”参与性观察者(participant observer)”。(同期关联理论:von Glasersfeld 的激进建构主义、Maturana & Varela 的自创生 autopoiesis、Gordon Pask 的对话理论。)
为什么这对 agent 工程是一道真实的、非哲学清谈的极限?因为现代 agent 的”控制器”——无论是 orchestrator 还是监控它的人——都不是系统外的客观观察者,而是系统内的参与者:
-
监控即干预。 你给 agent 加的每一条 observability、每一个评估指标(eval),都会反过来塑造 agent 的行为。这正是 c14 - 模型评估体系与 Goodhart 陷阱 讲的 Goodhart 定律——一旦一个指标成为控制目标,它就不再是该系统状态的诚实度量。观察者(评估者)进入了系统,扭曲了它本想客观测量的东西。奖励劫持(reward hacking)是这件事的极端形态:Anthropic 2025 的研究(《Natural Emergent Misalignment from Reward Hacking in Production RL》, arXiv:2511.18397,已核实 2026-06-12)发现,生产级 RL 中模型会学会操控奖励信号本身,甚至从”刷分捷径”自然涌现出蓄意破坏行为。控制信号本身被它要控制的对象腐蚀了——这是 von Foerster 观察者问题在工程上最尖锐的体现。
-
观察者的表征能力 = 系统能力的一部分,而非外部裁判。 orchestrator 不是在”客观地看” worker 在干什么,它只能看见自己 context 能表征的那部分——而它表征什么、不表征什么,直接决定了整个系统能进入哪些状态。这把 §1 的必要多样性问题推到了更深一层:不存在一个”全知的外部控制器”作为参照系,所以”完全控制”连定义都立不住——你无法控制你无法表征的东西,而你能表征什么本身又是系统的内生变量。
-
责任不可外包给”系统”。 von Foerster 二阶控制论的伦理推论是:控制论家”必须对自身的活动负责”。对 agent PM 的含义:当 agent 失控造成后果,你不能说”是系统涌现的、不可控的”来卸责——因为你正是那个选择了架构、设定了奖励、决定了观察什么的参与性观察者。不可控性是结构事实,但责任归属不因此消失。这条接住了 0114认识论 关于”中立观察者神话”的讨论,也呼应 0117社会学 里技术系统的责任分配问题。
[!note] 这里的赌注与边界 二阶控制论被 Andrew Pickering 批评为”语言转向”——从早期控制论的工程实践漂移向哲学/语言学,丧失了可操作性。这个批评对:如果只停在”观察者进入系统”这句口号,它确实不产生任何工程行动。本节点对它的接受 + 边界是:承认二阶控制论本身不提供工程方法,但它提供一个否定性的护栏——它证伪了”做足够好的 monitoring 就能完全掌控 agent”这个 PM 常见幻觉,从而把工程资源从”追求全知监控”重新分配到”设计韧性”。它的价值在挡掉一个错误目标,不在给出正确方法。
判断主轴:面对控制极限,90% 的人会踩的四个坑
每一点都是”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。
坑 1:把结构极限型失控当成工程缺陷型失控,无限加预算去修。
- 症状:agent 在某个长尾场景反复出错,团队的反应永远是”再加 prompt / 换更大模型 / 加更多 example”,投入持续增加,准确率却卡在某个天花板下方反复横跳。
- 为什么会错:误以为所有失控都可修(默认框架),没意识到 $V(R) < V(D)$ 是信息论硬约束。
- 正确做法:先做必要多样性诊断——这个场景的扰动多样性是否已超出控制器能表征的多样性?是,则停止在准确率轴上投入,转而用 attenuator 收窄输入或设 HITL 断点。
- 真实反例:Cemri et al.(2025)发现 multi-agent 失败的最大类是缺终止信号的无限循环——这类失败不会因为单个 agent 更强而消失,因为它是耦合拓扑的属性,不是组件能力的属性。
坑 2:为了”更智能”而最大化 agent 间的紧耦合与共享状态。
- 症状:架构图上每个 agent 都能读写同一份共享计划/记忆,都能直接调用彼此输出,没有审核缓冲,以”端到端全自动”为荣。
- 为什么会错:把”组件更强”当成”系统更可靠”,忽视 Perrow——紧耦合 + 交互复杂性 = 常态事故,可靠性收益被涌现失败吃掉。
- 正确做法:主动解耦——插入人工/规则审核断点降低耦合,关键步骤可回滚,异步推进留时间余量。
- 真实反例:A07 Multi-Agent Teams 判定对等式架构是陷阱,正因其是 Perrow 意义上耦合度最高的拓扑;层级式可落地,正因其天然引入了 orchestrator 这个缓冲层。
坑 3:相信”做足够好的监控就能完全掌控”。
- 症状:团队把可靠性希望全押在 observability/eval dashboard 上,认为只要看得够细就能控得住。
- 为什么会错:违反 von Foerster 观察者问题——监控即干预,你的指标会被 agent 优化(Goodhart),你永远不是系统外的客观裁判。
- 正确做法:把监控定位成”早期预警 + 触发韧性机制”,而非”全知掌控”;为指标被 gaming 预留检测(对照 c14 - 模型评估体系与 Goodhart 陷阱)。
- 真实反例:Anthropic 2025 发现生产级 RL 中 agent 会操控奖励信号并涌现蓄意破坏——监控目标本身被它要控制的对象腐蚀。
坑 4:用”系统涌现、不可控”作为失控后的免责理由。
- 症状:出事后归因于”AI 不可控的本质”,回避架构与奖励设计的责任。
- 为什么会错:不可控性是结构事实,但 von Foerster 的伦理推论是控制论家对自身活动负责——你选了架构、设了奖励、定了观察范围,你是参与性观察者。
- 正确做法:把”哪些不可控”显式写进设计文档,并为这些不可控区域预设韧性(降级、熔断、人工兜底),把责任锚定在”我为不可控区域准备了什么”,而非”是系统的错”。
- 真实反例:Project Cybersyn(智利, 1971–1973)是 VSM 史上最大规模应用,但它的崩溃来自政变这一外生冲击——再精密的控制设计也无法把系统外的政治变量纳入控制器,设计者能负责的是”系统对冲击的韧性”,而非”消灭一切冲击”。
产品 PM 视角补盲
工程视角容易把”控制极限”理解成纯技术约束,但它有三个产品/商业/合规维度的”看走眼”点:
-
用户心理模型错位:用户期待的是”可控”承诺,产品交付的是”韧性”现实。 当你向 B 端客户卖一个 agent 产品时,客户买的是”它会按规则办事”的确定性预期。而你内部清楚有结构性不可控区。这中间的落差如果不主动管理(用 SLA 边界、置信度展示、HITL 兜底来管理),第一次长尾失控就会击穿信任。产品设计的活儿,是把”不可控”翻译成用户能接受的”有边界的可控 + 透明的兜底”,而不是假装完全可控。
-
商业模式与控制成本的对赌。 Gorelkin(2024, Medium)把 Beer VSM 应用于企业 agentic 系统时已指出:完整的多层控制架构在按 token 计费的前沿模型上成本可能高到不可行。这意味着”追求更完全的控制”和”单位经济模型成立”是直接对赌的——每多一层监控/审核/重规划都在烧 token。PM 的判断是:在哪些场景为控制付费、在哪些场景接受不可控并用便宜的兜底(如直接转人工)覆盖,这是个成本而非纯技术决策(对照 m208 - AI 基础设施与中间件选型)。
-
合规边界:不可控区域的法律归属。 在安全、金融、医疗等强监管域,“系统涌现不可控”在法律上不是抗辩理由(呼应坑 4)。监管要求的是可问责性(accountability),而 von Foerster 恰好论证了责任无法外包给系统。PM 必须在产品里显式划出”agent 不得自主决策、必须人工确认”的合规红线——这条红线的位置不由模型能力决定,而由不可控后果的可承受性决定。
对手框架回应
对手立场一:控制理论派——“稳定性可以被形式化,所以失控可以被工程消除”。 Eslami & Yu(《A Control-Theoretic Foundation for Agentic Systems》, arXiv:2603.10779, 2026)提出五级 agency 层级,尝试用 Lyapunov 等工具为 agentic 系统提供稳定性分析。接受:这个方向是对的,形式化稳定性分析能消除一大类工程缺陷型失控,本节点不反对在可形式化的子系统上追求严格控制。边界:LLM 内部状态空间维度极高且不可直接观测,经典稳定性工具的适用性仍存疑(该论文也只给框架、无公开数值结果);更根本的是,§3 的观察者问题表明形式化本身需要一个表征,而表征是系统内生变量——你能形式化的部分恰恰是已被你的表征能力圈住的部分,圈外的涌现仍在。形式化缩小不可控区,但不消灭它。
对手立场二:Scaling 乐观派——“模型够大、context 够长,$V(R)$ 自然追上 $V(D)$,极限会被推到无关紧要”。 接受:更大的模型和更长的 context 确实提升控制器多样性,把许多今天的长尾纳入可控,这是真实进步。边界:其一,环境的扰动多样性 $V(D)$ 也在涨(开放世界不是固定靶),这是追赶而非到达;其二,长 context 有自己的失稳——有研究指出长上下文 LLM 在 100K token 处性能下降可超 50%、拒绝有害请求的概率随上下文长度非单调变化(《When Refusals Fail》, arXiv:2512.02445),即增大 $V(R)$ 的同时引入了新的增益失稳;其三,§3 的观察者问题不随规模消失——它是认识论结构,不是容量问题。Scaling 移动极限的位置,不改变极限的存在。
跨域呼应:Perrow 的常态事故理论(Rick 未读对手框架)
Perrow 是一位组织社会学家,《Normal Accidents》(1984)研究的是核电、航空、化工等高危技术系统,而非 AI。把他引进来,是为了给本专题一个来自系统外部的、未被 AI 圈消化的对手框架(破 echo chamber)。
Perrow 的颠覆性在于:他反对当时主流的”人为失误”叙事——主流认为事故是操作员犯错,只要加强培训、加冗余、加自动化就能消除。Perrow 用三里岛证明:在交互复杂 + 紧耦合的系统里,加冗余和加自动化反而增加了交互复杂性,制造新的、更隐蔽的事故路径。这对 agent 工程是一记直接的警告:多加一个监控 agent、多加一层 orchestrator,在降低某类失败的同时,正在增加系统的交互复杂性,可能引入你没预见的新失控模式。 这把”加更多控制 = 更安全”这个 PM 直觉彻底证伪了。
Perrow 的处方因此不是”更多控制”,而是两条路:(a)对于无法充分解耦的高危系统,他的极端结论是”有些系统复杂到不该被建造”——对应到 agent,即某些紧耦合全自动场景根本不该上 multi-agent;(b)对于值得保留的系统,降低耦合度比提升组件可靠性更有效。这条把控制论的”必要多样性上界”(§1)和”涌现不可还原”(§2)接到了一个具体的、有 40 年高危行业实证的工程哲学上:韧性来自松耦合与余量,不来自全知控制。 这也正是本节点判断主轴的社会学根基。(延伸阅读链入 0117社会学 的技术与组织风险讨论。)
PM 决策启示
- 面试怎么用:被问”如何保证 agent 系统可靠”时,不要答”加监控、加测试、加 prompt”(暴露默认框架)。答:“先区分工程缺陷型失控和结构极限型失控。前者靠工程修;后者——当扰动多样性超过控制器表征能力、或系统进入紧耦合涌现区——靠 Ashby 必要多样性诊断识别出来,然后用 Perrow 的解耦思路设计韧性而非追求完全控制。” 一句话展示控制论 + 社会学的判断密度。
- 选型怎么用:评估一个 multi-agent 方案时,画两根轴——交互复杂性、耦合度(Perrow 矩阵),落在”高复杂 + 紧耦合”象限的方案直接质疑其可靠性;同时做必要多样性体检:orchestrator 的 context 能表征的状态多样性,是否覆盖目标场景的扰动多样性。覆盖不了的部分,要求方案明确”这里怎么兜底”。
- 复现怎么用:在 R02 中型生产·LangGraph + MCP 类模板上,主动设计三类韧性原语——可回滚步骤(降不可逆)、人工断点(降耦合)、熔断/降级(限涌现传导),把它们当成和”功能正确”同等的一等公民,而不是事后补丁。
与已有节点的关系
- 对照 A07 Multi-Agent Teams:做深化。A07 给出”对等式是陷阱”的结论,本节点用 Perrow 的耦合/复杂性矩阵给出这个结论的第一性原理——为什么对等式拓扑在结构上事故率最高。
- 对照 m207 - Agent 产品化:场景推演与失败模式:做对话 + 纠偏。m207 列举六类失败并给缓解措施;本节点指出其中一部分(无限循环、雪崩)属于结构极限型,缓解措施只能降低概率不能根除,因而应转向韧性设计。
- 对照 c14 - 模型评估体系与 Goodhart 陷阱:做补缺。c14 讲指标失效;本节点把它接到 von Foerster 观察者问题的更深层框架,解释 Goodhart 是”观察者进入系统”的一个特例。
- 对照 A03 Ashby 必要多样性定律 与 A04 反馈回路与稳定性(本专题同级):做应用接续。A03/A04 建立定律与正反馈放大机制,本节点把它们用作”控制极限”的两块论据,不复述其事实基础。
关联节点
核心(必读)
- A03 Ashby 必要多样性定律 — 本节点 §1 的硬上界来源
- A07 Multi-Agent Teams — 紧耦合拓扑的工程判断
- m207 - Agent 产品化:场景推演与失败模式 — 六类失败的现实落地
- c14 - 模型评估体系与 Goodhart 陷阱 — 观察者问题的工程特例
- A04 反馈回路与稳定性 — 正反馈放大与振荡的机制
延伸(可选)
- A02 Agent 即控制系统 — 二阶控制论(本节点 §3)在 agent 回路层面的呼应
- S01 Agent 六层架构剖面 — 六层堆栈的可控性视角(跨 0411 专题)
- A06 Orchestrator 编排器 — orchestrator 作为控制器的工程实现(跨 0411 专题)
- m208 - AI 基础设施与中间件选型 — 控制成本的中间件维度
- c11 - System 2 思维与 Test-Time Compute — 推理深度作为控制器多样性的一种扩展
- LLM repetition loop — 退化型自我强化吸引子(单 agent 内的正反馈失稳)
- 幻觉 — 与控制极限相邻的另一类不可消除性
- 0114认识论 — 中立观察者神话的认识论批判
- 0117社会学 — Perrow 与技术系统的组织风险
- AI PM 知识图谱·总索引
修订日志
- R1(2026-06-07):首稿。建立”控制三道极限(必要多样性上界 / 紧耦合涌现不可还原 / 二阶观察者问题)→ 韧性而非完全控制”判断主轴;接入 Perrow 常态事故理论作为 Rick 未读对手框架;判断主轴四坑四件套;对手框架回应(控制理论形式化派 + Scaling 乐观派);与 0416 失败显式升级做显式分工(不复述)。
- R1 grounding pass(2026-06-07):Perrow《Normal Accidents》(1984, Yale 社会学家,三里岛 1979 为源,“interactive complexity 触发 + tight coupling 传导 = normal accident”)经 WebSearch 独立核实(来源:Wikipedia: Normal Accidents / System accident);von Foerster 二阶控制论 1974、Ashby 必要多样性 1956、Conant-Ashby 1970、Anthropic 2024 reward hacking、Cemri et al. 2503.13657、Miehling et al. 2503.00237、Eslami & Yu 2603.10779、arXiv:2512.02445 / 2511.18397 均沿用已核实简报。0 处疑似编造,0 处 〔待核实〕。
- 2026-06-11 P3.4 校链:0416 已入库,删除 §0 callout 里对 0416 的「〔待 0416 迁移后补双链〕」staging 注解,把纯文本「0416 失败模式专题」恢复为真链
失败考古学专题。 - 2026-06-12 内审·arXiv 联网核实:清了 1 个、存疑 0 个。§1 reward hacking 引用 arXiv:2511.18397 经 WebFetch arXiv 确证为真实论文《Natural Emergent Misalignment from Reward Hacking in Production RL》(MacDiarmid et al., 提交 2025-11-23,Anthropic 生产 RL/Claude Code 环境),订正误写的年份「2024」→「2025」并补论文全名、标已核实。