S01 深度 AI 用户行为模型剖面

把”一个深度 AI 用户每天到底在做什么”拆开，会发现这不是一个连续的”使用”动作，而是六个可分离、可单独失效的认知层。本节点要解决的问题：**当研究对象是 Rick 本人这样一个极端 power user 时，用什么分层模型才能既”可观察、可测量”，又能逼出”层与层之间会致命错配”的产品洞察。**视角/框架名：六层委托栈（intent → delegation → trust-calibration → review-routing → state-externalization → iterative-learning）。这个模型本身就是交付物——它既是民族志的编码骨架，也是一份产品设计的需求图谱。

[!warning] 接地纪律（本节点贯穿）凡标 〔可观察〕 的，均有 vault 文件、对话存档、时间戳或本”专题工厂”（0412–0423 多 agent 知识生产）的运作可查证。凡标 〔Rick 待填〕 的，是需要 Rick 内省才能确证的信任校准/注意力分配/主观体感，本节点只给结构化模板与引导问题，绝不替他编造。这正是分析式自我民族志（Anderson 2006）“narrative visibility + 不冒充全知”的诚实做法。

§0 为什么是”六层委托栈”而不是”输入-输出”或”漏斗”

读者脑中默认有两个错误框架，先挡掉。

错误框架一：把 AI 使用建模成”prompt → response”的输入输出。 这是技术博客的视角，它把用户压成一个”会写 prompt 的人”。但 power user 的行为根本不在 prompt 层——Rick 的可观察行为是：诊断 AI 的”审美过拟合”并用 ML 术语做元层干预〔可观察，2026-03-23 对话〕、把 12-agent 架构主动塌缩为 5 sub-agent + 6 skill〔可观察，2026-05-21〕。这些行为里 prompt 只是末端执行，真正的认知发生在”我要不要把这件事交给 AI""我信不信它这次的输出""我审到哪一层就停”。输入输出模型把这些全部丢掉了。

错误框架二：把 AI 使用建模成转化漏斗（认知 → 尝试 → 留存 → 付费）。 这是增长 PM 的视角，适合刻画”新用户怎么变重度用户”，但对已经是极端 power user的研究对象毫无分辨率——Rick 在所有漏斗指标上都顶格，漏斗看他是一条直线。漏斗模型测的是”用不用”,我们要测的是”怎么用、在哪一层用错”。

为什么选六层委托栈： 它的每一层都满足三个条件——(a) 可单独观察（有外显行为或产物）；(b) 可单独失效（这一层错了不必然连累别层，但常常连累，于是产生”致命耦合”这一判断主轴）；(c) 可单独对应一个产品决策。这与 Lee & See（2004, Human Factors，“Trust in Automation: Designing for Appropriate Reliance”）的信任校准模型、Parasuraman & Manzey（2010, Human Factors）的自动化偏差/自满模型同源——它们都拒绝把”人-自动化”压成单一变量，而是分解成”信任→依赖→注意力→校正”的链条。六层栈是把这条链条往”知识工作 + 多 agent 工具”语境的一次具体化。

[!note] 框架的边界（赌注）六层是分析切片，不是 Rick 脑中真实的串行流水线。真实认知大概率是并行、回环、相互渗透的。我赌的是：为了可观察和可干预，牺牲一点”现象学保真度”换来”层级可定位性”是值得的——这正是分析式（Anderson）对唤起式（Ellis & Bochner 2000）自我民族志的取舍：用可迁移的结构换情感保真。失效场景见 §7。

§1 第一层：意图形成（Intent Formation）

这一层问的是：在用 AI 之前，“要解决什么”是怎么成形的？ 普通用户的意图往往是模糊的、被 AI 反向塑造的（“我也不知道要啥，先问问”）。Power user 的特征是意图先于工具成形，且常常被工程化为可复用结构。

维度	可观察指标	证据
意图的结构化程度	是否把一类意图固化为 skill / 模板	〔可观察〕trip 五件套 + intellectual-lens skill，把”行程发现""理论分析”这类反复出现的意图封装成 procedural knowledge
意图的元层化	是否对”AI 的行为本身”形成意图	〔可观察〕对 AI 记忆”审美过拟合”的诊断意图（2026-03-23）——意图对象不是任务，是 AI 这个协作者本身
意图的约束注入	是否预先设定输出约束而非事后筛选	〔可观察〕AI PM 知识图谱项目两次主动改写 prompt 约束：撤数量上限保完备、把”PM 视角”具体化为”当你面对 X 决策时”（2026-03-05）

[!example] 〔Rick 待填：意图形成的内省〕引导问题（请如实，不确定就写”不确定”）：

你设计 trip-discover 这类 skill 时，是先有”这类需求会反复出现”的判断，还是用过几次发现痛点后才封装？这个”该封装了”的信号是什么？

有没有过”意图是被 AI 的某次输出激发出来的”？即 AI 反向塑造了你的目标，而不是你下达目标。如果有，举一例。

你在动手前，脑中”要什么”清晰到几成才会开问？还是边问边清晰？

PM 含义： 意图形成层是产品最难触及又最值钱的层——它发生在用户打开你的产品之前。Power user 把意图工程化成 skill，意味着”可复用意图”是真实需求；这正对应 Skill 系统的本质的论点：skill 是把默会的程序性意图显式封装。产品若只优化”输入框体验”，就永远停留在第二层下游，碰不到这一层的价值。

§2 第二层：委托决策（Delegation Decision）

这一层问的是：哪些事交给 AI，哪些自己做，边界在哪、谁来移动这条边界？ 这是六层中”产品杠杆最大”的一层——委托边界决定了 AI 在用户工作流中的权重。

维度	可观察指标	证据
委托粒度	委托的是”一步”还是”一整条流水线”	〔可观察〕本专题工厂即一条被委托的多 agent 流水线：旅途中 write-first 产出原始对话 → 后续 Phase 1 批量 pipeline（Enricher/Integrator）处理入库，而非逐条手工
委托的权限隔离	是否给 AI 划定”能写到哪”的边界	〔可观察〕vault CLAUDE.md 原则四”三步 ingestion”：AI 产出一律先入 `_ai_review/` 沙盒，Rick 审阅后才 move——工程化的 AI 写权限隔离
委托的可逆性设计	委托是否预留撤销/收回机制	〔可观察〕同上，沙盒机制本身就是”委托可逆”的设计
委托对象的架构化	是否为不同委托设计不同 agent/skill	〔可观察〕A/B/C/D 判别框架：只有真正需要”独立 context 隔离”的保留为 agent，其余降为 skill（v1.4 塌缩）

[!example] 〔Rick 待填：委托决策的内省〕

你决定”这件事交给 AI”时，主要看什么？是任务可验证性、你自己的时间成本、还是对 AI 这次能力的预估？三者怎么排序？

有没有”本来该自己做、但偷懒交给了 AI、后来后悔”的具体场景？（这是过度委托的一手数据，对 §6 致命耦合极关键）

三步 ingestion 的沙盒，在你实际操作中是真的每次都审，还是某些低风险产出会直接放行？放行的判据是什么？

PM 含义： 委托边界是 AI 产品的真正定价锚点——用户愿意把多大、多关键的一段工作流交出去，决定了产品是”玩具”还是”基础设施”。Lead user（von Hippel 1986）的价值正在于：他们比市场更早把委托边界推到极限，从而暴露出产品在”高委托”场景下的全部裂缝。Rick 把整条知识生产流水线委托出去（本工厂），就是一个领先用户把委托边界推到尽头的活体样本。

§3 第三层：信任校准（Trust Calibration）

这一层问的是：用户对 AI 这次输出的信任，与 AI 这次的实际可靠性，匹配吗？ 这是整个领域研究最密集、争议最大的一层（Lee & See 2004 的核心）。信任高于实际可靠性 = overtrust（过度依赖）；低于 = undertrust（弃用浪费）。

维度	可观察指标（注意：信任本身不可直接观察，只能看其外显代理）	证据
信任的动态调整	是否对 AI 做过”信任向下修正”的干预	〔可观察〕过拟合诊断两轮干预（2026-03-23）：诊断 → 要求改记忆 → 防止矫枉过正（泛化≠平均化）。这是对 AI 某种能力的信任下调 + 边界重设
信任的领域分化	是否对不同任务给 AI 不同信任	〔可观察〕memory allowlist 转型（2026-05-13）：只信任 AI 保留”指向哪里”的索引，不信任它保留”具体是什么”——按内容类型分配信任
反向信任修订	是否主动删除/纠正 AI 已生成的内容	〔可观察〕allowlist 转型中主动要求 AI 删除此前生成的排除式记忆条目

[!example] 〔Rick 待填：信任校准的内省（本层内省价值最高）〕这一层几乎全部依赖你的主观判断，可观察证据只能旁证。请务必如实，不要为了好看而拔高：

校准的触发信号：你是怎么知道”这次该信""这次别信”的？是看输出的某种气味（过于流畅？细节太具体？）、看任务类型、还是看 AI 之前在类似任务上的表现？

过度信任的事故：有没有一次你信了 AI、结果它错了、且错误代价不小的具体事件？当时你为什么会信？（这是 §6 委托×信任错配的核心一手数据）

信任的不对称：你对 AI 在”事实”和”判断/审美”上的信任，是不是不一样？哪个更高？为什么？

校准疲劳：长时间高强度协作后，你的校准会不会变松（懒得验证了）？如果有，这正是 Parasuraman & Manzey 说的 automation complacency 在你身上的样子——值得记录。

业界反方立场（接受 + 边界）： DeepMind（Jain, Bridgers, Janzer et al. 2025, “Human-AI Complementarity: A Goal for Amplified Oversight”, arXiv:2510.26518，已核实）发现：给用户”AI 标签 + 置信度 + 解释”反而加剧过度依赖，而给”搜索结果 + 证据”才促成适当信任。接受：这说明”AI 自报置信度”是危险的信任锚点，光看 AI 说”我有 90% 把握”会害人。边界：这是在”事实核查任务、被试不熟悉领域”的实验设定下得出的；Rick 这种长期、熟悉自己 vault 的 power user，信任锚点更可能来自”历史协作记忆”而非”单次置信度”——这恰是本自我民族志能补实验室之不足的地方。同理 Bansal, Wu, Zhou et al.（2021, CHI, “Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Team Performance”, arXiv:2006.14779，已核实）的反直觉结论”解释提高了人对建议的采纳、却没提升人机互补”,在 Rick 身上是否成立，是 §6 要追问的。

§4 第四层：审阅分流（Review Routing）

这一层问的是：面对 AI 的产出，用户把有限的审阅注意力投到哪几处、放过哪几处？ 这是 power user 最稀缺资源（注意力）的分配层，也是与 0418 审阅瓶颈专题的直接接口。

维度	可观察指标	证据
审阅的分层结构	是否对产出做分级、不同级别不同审阅强度	〔可观察〕本工厂 SABCD 评级 pipeline：对话被分为 S:14 / A:103 / B:194 / C:182（`99Archive/_README.md`）。评级本身就是审阅注意力的预分配
审阅的抽样策略	是否全审 vs 抽审	〔可观察〕三步 ingestion 要求 Rick 审阅后才 move——但”审到多细”不可观察，需内省
审阅的触发条件	什么样的产出会被重点审	〔Rick 待填〕

[!example] 〔Rick 待填：审阅分流的内省（你的审阅行为是 0418 专题的一手数据）〕

注意力预算：面对一篇 AI 生成的长笔记，你大概会真正逐字读多少比例？哪些部分你会跳读/扫读/直接信？

SABCD 评级的内部标准：14 条 S 级和 182 条 C 级之间，你打分的真实依据是什么？有没有评级时犹豫、边界模糊、事后改判的情况？

审阅的”气味驱动”：你是否靠某种”不对劲的气味”决定深审某段？这种气味具体是什么（逻辑跳跃？引用可疑？语气过满？）？

审阅放弃：有没有”太长/太累，干脆不审了直接用/直接弃”的时刻？触发阈值在哪？

PM 含义 + 与 0418 的升级对照： 审阅分流层是审阅瓶颈专题（0418 专题）在”个体行为”尺度的落地。0418 把审阅瓶颈论证为”AI 时代生产的真正约束从’写’转移到’验’“;本节点把它具体化为一个人如何在注意力预算约束下做审阅路由。本节点对 0418 做的是深化 + 提供一手数据：Rick 的 SABCD 评级行为是”审阅分流如何被结构化”的活样本，0418 可引用本层的内省模板作为田野证据。

§5 第五层：状态外化（State Externalization）

这一层问的是：用户把多少认知状态从大脑卸载到外部系统（vault、memory、skill、对话存档）? 这是 power user 区别于普通用户最隐蔽也最强的一层——他们把 AI 协作当成一个”外部认知器官”在治理。

维度	可观察指标	证据
外化的治理结构	是否对外部状态做分层治理	〔可观察〕memory allowlist 三层结构（2026-05-13）：memory 只存”指向哪里”，详细内容外移到 Obsidian——显式的状态外化分层
外化的产物体系	是否把 AI 协作产物结构化沉淀	〔可观察〕vault CLAUDE.md 原则六”三层产物体系”：按触发条件分层而非时间周期，拒绝”周报/月报”
外化的图谱化	是否把外化状态织成可检索网络	〔可观察〕0412–0423 旅行期约 40+ 对话存档 → 约 40+ 升格笔记节点，跨 `01学习/0123美国近现代史` 与 `60流浪/美国` 双分类互链

[!example] 〔Rick 待填：状态外化的内省〕

你把东西写进 vault/memory，是为了”减轻大脑负担”，还是为了”让 AI 下次更懂我”，还是为了”留作求职/思维训练底料”？三者权重？

有没有”外化过度”的感觉——花在治理外部系统上的时间，超过了它省下的认知成本？如果有，临界点在哪？

allowlist 转型后，你是否真的感到 AI 协作变轻了，还是只是换了一种治理负担？

业界反方立场（接受 + 边界）：认知卸载是不是脱技能化？ Kim（2026, Consumer Psychology Review 9(1):142–164, “From algorithm aversion to AI dependence: Deskilling, upskilling, and emerging addictions in the GenAI age”, DOI 10.1002/arcp.70008，已核实）提出 Division of Cognitive Labor × Metacognitive Oversight 二维框架，警告用户会”自然漂移向 Cognitive Surrender”（把任务与判断双双交出）；Huemmer, Durner et al.（2026, “AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study”, arXiv:2601.17055，已核实）的三波次纵向研究发现高难度任务中独立解题准确率随 AI 使用从 95.2% 降至 47.8%，且验证信心同步下降。接受：把判断、记忆、结构都外包给系统，长期可能侵蚀独立能力，这个风险真实存在。边界：Kim 框架的关键正是 Metacognitive Oversight——只有”低元认知监督”那一象限才滑向 Cognitive Surrender；Rick 的外化是治理性外化（他在设计、审阅、纠正这个外部系统），元认知监督是高的，落在”Skilled Augmentation”而非”Cognitive Surrender”象限。但这条边界很脆：一旦 §6 的耦合 B（审阅塌缩）发生，元认知监督被注意力预算挤垮，治理性外化就会退化为认知投降。〔关于流行的”AI 辅助写作时皮层活动降低约 55%“一说，来源尚未定位到原始论文，本节点不引用该具体数字，仅标注存在此类争议。〕

§6 第六层：迭代学习（Iterative Learning）+ 判断主轴：三处致命层间耦合

第六层问的是：用户从每次 AI 协作中学到什么、如何把它反馈回前五层？ 〔可观察〕证据丰富：trip-structure skill 的 over-design → 被拉回 → 收敛轨迹（2026-04-03，由 skill-creator 元 skill 重写）；intellectual-lens 用”竞品输出对照”做 prompt 迭代（2026-04-05）；12-agent → v1.4 的 over-engineering 自检塌缩（2026-05-21）。迭代学习层把”这次哪里错了”回写成下次的意图结构、委托边界、信任先验。

但真正的 PM 洞察不在任何单层内部，而在层与层的耦合处。以下是三处致命耦合（四件套：症状 → 为什么会错 → 正确做法 → 真实反例）。

耦合 A：委托决策（L2）× 信任校准（L3）→ 过度依赖

症状：把一类任务长期委托给 AI 后，信任校准从”每次验证”退化为”默认信任”，委托边界悄悄外扩到不该委托的区域。
为什么会错：L2 的委托是”配置一次、长期生效”的，但 L3 的信任应该”每次重估”。两者节奏不同步——委托是静态的，可靠性是动态的。当 AI 在某类任务上连续表现好，人会把”历史可靠”误当”本次可靠”，这正是 Parasuraman & Manzey（2010）的 automation complacency：信任随成功累积而钝化，训练和警告都消除不掉。
正确做法：把”委托”和”信任”解耦——委托可以稳定，但对委托产物保留与风险等级匹配的强制验证（认知强制函数，cognitive forcing，Buçinca, Malaya & Gajos 2021, “To Trust or to Think: Cognitive Forcing Functions Can Reduce Overreliance on AI in AI-assisted Decision-making”, arXiv:2102.09692，已核实，N=199，证明强制暂停能降过度依赖，但用户最不喜欢、且对低认知动机者效果差——代价真实）。
真实反例：〔Rick 待填：你有没有过”某类任务交给 AI 久了，就不再细看它的输出，直到某次出岔子”的具体经历？这是耦合 A 在你身上是否成立的唯一确证途径，请如实，没有就写”未观察到”。〕

耦合 B：审阅分流（L4）× 注意力预算 → 审阅塌缩

症状：AI 产出量随委托规模线性增长，但审阅注意力是固定预算；产出越多，单位产出分到的审阅越少，最终审阅退化为”扫一眼标题就放行”。
为什么会错：L2 委托的扩张（交给 AI 更多）与 L4 审阅的预算（人的注意力）是此消彼长但常被当成无关的。Power user 尤其危险——正因为他委托规模大（本工厂 493 条对话评级），审阅被稀释的压力也最大。
正确做法：审阅预算必须显式建模为约束，并用分级路由（如 SABCD）把有限注意力集中到高风险产物；接受”低级别产物抽审甚至不审”是理性的，但要显式承认放过了什么，而非假装全审了。
真实反例：〔可观察的旁证〕本工厂 C 级 182 条——如果这些 C 级对话进入 pipeline 后获得的人工审阅显著少于 S 级，那就是耦合 B 的结构性体现。〔Rick 待填：C 级产物你实际花多少注意力？是否存在”评了 C 就基本不再看”的事实？〕

耦合 C：状态外化（L5）× 迭代学习（L6）→ 记忆过拟合 / 治理债

症状：外化的状态（memory、skill、笔记）越积越多，迭代学习把越来越多的”个人偏好”固化进系统，最终 AI 对 Rick 过拟合——丧失泛化与提出异见的能力。
为什么会错：L5（外化）和 L6（学习）形成正反馈环：外化越多 → AI 越懂你 → 越倾向迎合你 → 你越信任 → 外化更多。这个环没有内置的”反向阻尼”，会自然滑向过拟合。
正确做法：在反馈环里植入显式的反过拟合机制。〔可观察〕Rick 已经做过——2026-03-23 的两轮干预正是手动给这个环加阻尼：“解耦偏好了解与审美能力""泛化≠平均化”。这与 AI 记忆过拟合与泛化能力直接呼应，也是 allowlist 转型（L5 治理）的深层动机。
真实反例：〔可观察〕memory 从 blocklist 到 allowlist 的转型本身，就是 Rick 察觉到 L5 治理债积累后的纠偏行为——证明耦合 C 真实存在且他在主动对抗。

[!note] 跨域呼应：Polanyi 的默会知识 × 六层栈调度 Polanyi 默会知识与提示工程的认识论张力。Polanyi 的命题”我们知道的比我们能说出的多”（we know more than we can tell）精确地解释了为什么六层栈中 L1（意图）、L3（信任校准）、L4（审阅气味）三层的核心恰恰是最难外化、最依赖内省的——它们是默会的。这反过来论证了本节点的方法论选择：这三层只能靠〔Rick 待填〕的自我民族志去逼近，而不能靠日志（usage log 只记录行为、不记录默会判断）。把默会层强行外化进 skill/memory（L5），是 power user 不断在做、又不断失败的事——skill 能封装”程序性的怎么做”，但封装不了”信任校准时那一瞬的气味判断”。这正是 Skill 系统的本质的边界：skill 是显性程序的容器，不是默会判断的容器。

§7 失效场景与认识论自觉（边界承担）

failure scenario 1：六层栈假设各层”可分离”。若 Rick 的真实认知是高度融合的（意图、信任、审阅在一瞬间同时发生），则分层是分析者的强加，会制造不存在的”耦合”。这是本模型最大的赌注。
failure scenario 2：N=1 的自我民族志，结论无法推广到其他 power user。Rick 的模式可能是其哲学/PM 背景的特例（如治理性外化的高自觉），不是 power user 的普遍规律。Delamont（2007, 2012〔待核实具体年份〕）对自我民族志”navel-gazing / 缺乏学术严谨”的批评在此完全适用——接受这是个案，边界是：个案足以证伪”普遍规律”、足以生成假设供后续多被试研究检验，但不足以确立规律。
failure scenario 3：研究者即被研究者，存在系统性的自利偏差——Rick 可能无意识地把自己的行为叙述得比实际更有章法。Anderson（2006）的”dialogue with informants”在此缺位（没有第三方对照 Rick 的自述）。缓解：所有〔可观察〕项都用文件/时间戳锚定，把对自述的依赖压到最低；〔Rick 待填〕项明确标注为”未经独立验证的内省”。
confirmation-bias 砍除：本节点早期倾向把 Rick 的每个行为都解读为”高水平 power user 的典范”。这是 bias。补入反向假设——耦合 A/B/C 的存在恰恰说明：正因为 Rick 是极端 power user，他比普通人更暴露于过度依赖、审阅塌缩、记忆过拟合的风险。power user 不是免疫者，是高暴露者。这个反转才是本节点真正的产品洞察。

§8 PM 决策启示

面试怎么用：当被问”你怎么理解 AI 产品的用户”，不要答”分新手/重度”。答”我把深度用户拆成六层委托栈，产品的真正杠杆在委托决策层和审阅分流层，因为那是注意力预算的瓶颈，也是过度依赖事故的发生地”——这是一个有结构、有反共识、可追问的回答。
选型怎么用：评估一个 AI 协作工具时，别比 feature list，比它支不支持六层各自的治理：能不能划委托权限边界（L2）？能不能给产出分级路由审阅（L4）？能不能反向修订已外化的状态（L5）？能不能给反过拟合阻尼（L6）？大多数工具只做了 L1–L2 的输入端，L4–L6 几乎空白。
复现怎么用：这套六层 + 〔可观察/待填〕双轨编码，可直接用作任何 power user 自我民族志的编码骨架。把你自己的对话存档按六层打标，致命耦合处即产品需求。

§9 与已有节点的关系

对 Skill 系统的本质：深化。本节点把 skill 定位为 L1（意图工程化）与 L6（迭代学习固化）的产物，并指出其边界——skill 封不住 L3/L4 的默会判断。不复述 skill 的定义。
对 AI 记忆过拟合与泛化能力：对话 + 落地。把”过拟合”从一个 AI 现象，落地为耦合 C（L5×L6 正反馈环）的必然产物，并给出 Rick 已采取的阻尼行为作为活案例。
对 Polanyi 默会知识与提示工程的认识论张力：升级对照。原节点论证默会知识与 prompt 的张力；本节点把张力定位到具体三层（L1/L3/L4），并据此为方法论辩护（为什么必须用内省而非日志）。
对 0418 审阅瓶颈专题：提供一手数据 + 个体尺度深化。L4 审阅分流是 0418 在个体行为层的落地；Rick 的 SABCD 评级与〔待填〕审阅内省是 0418 的田野证据。
对 0414（Claude Code 体感）、0422（民族志方法）：方法对照。0414 是单工具体感、0422 是方法论纲领；本节点是把民族志方法（0422）施于一个极端 power user（Rick）在多工具协作（含 0414 的 Claude Code、Agent）上的六层切片，是方法的一次落地实例。

§10 关联节点

核心（必读）

延伸（可选）

trip-structure skill
Claude Code
Agent
0114认识论
0117社会学
人类学
民族志

修订日志

2026-06-07 R0：首稿。建立六层委托栈（intent / delegation / trust-calibration / review-routing / state-externalization / iterative-learning），每层配可观察指标 + 〔Rick 待填〕内省模板 + PM 含义；判断主轴落三处致命层间耦合（A 委托×信任→过度依赖；B 审阅×注意力→审阅塌缩；C 外化×学习→记忆过拟合）；接入 Lee & See 2004 / Parasuraman & Manzey 2010 / DeepMind Jain 2025 / Buçinca 2021 / Bansal 2021 / Kim 2026 / Huemmer 2026 等对手立场；Polanyi 跨域呼应落到 L1/L3/L4 默会三层。
2026-06-07 R0-grounding：经 WebFetch/WebSearch 核实 5 个引用——arXiv:2102.09692（Buçinca）、arXiv:2006.14779（Bansal）、arXiv:2510.26518（Jain）、arXiv:2601.17055（Huemmer，独立准确率 95.2%→47.8%）、Kim 2026 DOI 10.1002/arcp.70008（Division of Cognitive Labor × Metacognitive Oversight 框架，“Cognitive Surrender”），全部去除〔待核实〕标记；Kim 框架的 Metacognitive Oversight 维度被吸收进 §5 边界论证与 §6 耦合 B。Lee & See 2004 / Parasuraman & Manzey 2010 / Delamont / Anderson 2006 / Ellis & Bochner 2000 为已确证经典文献，沿用 SHARED_CONTEXT 接地简报。