R

A03 信任校准的自我观察

创建 2026-06-07 更新 2026-06-11 0 条双链 自我民族志 专题 AI 整理

A03 信任校准的自我观察

本节要解决的问题:在 Claude Code 这样的高频 agentic 协作里,一个 power user 每天要做几十上百次同一类隐性决策——这次输出我直接 auto-accept,还是停下来逐行 review diff? 这个决策几乎不进入意识:它快、它凭”感觉”、它从不被复盘。本节的命题是——信任校准(trust calibration)是一种隐性技能(tacit skill),它隐性,所以既无法被优化,也无法被教学;自我民族志的价值,恰恰是把这种隐性决策”显式化”成一张可观察、可证伪、可迭代的决策表。 框架视角:用 Lee & See(2004)的信任校准模型当骨架,但把研究对象换成”作者 Rick 自己在审阅 AI diff 时的触发条件”,并诚实地为不可外部观察的内省部分留下 〔Rick 待填〕 模板。

[!warning] 接地纪律(本节最重要的诚实声明) 本节绝不编造 Rick 在 review diff 时的具体感受、信任阈值或决策内容。可观察的部分(Rick 设计过 AI 写权限沙盒、做过 over-engineering 自检、做过 memory allowlist 转型——见本节引用的 vault 产物)如实分析;需要 Rick 内省才能填的部分(“我在什么条件下选择不看 diff”),一律以结构化 〔Rick 待填〕 模板呈现,附引导问题。这正是分析式自我民族志(Anderson 2006)对”narrative visibility + 不替代主体发声”的方法要求。


§0 为什么是”信任校准”这个框架,而不是”信任”或”满意度”

读者脑中的默认框架往往是两个,都得先挡掉:

默认框架一:“我信不信 Claude Code”是个标量。 错。Lee & See(2004,Human Factors,“Trust in Automation: Designing for Appropriate Reliance”,该文是该领域引用最广的理论基础)的核心贡献,不是”信任高低”,而是校准(calibration)——信任度应当与系统在该具体情境下的实际可靠性匹配。信任高于实际可靠性叫 overtrust(过度依赖),低于实际可靠性叫 undertrust(使用不足)。所以正确的问题不是”我多信任 Claude Code”,而是”我对它的信任,在哪些任务类型上校准准了、在哪些上系统性地偏高或偏低?“标量塌缩成一个数字,恰恰是隐性技能没被显式化的症状。

默认框架二:“满意度”或”好不好用”。 满意度测的是体验,校准测的是判断的准确性。一个 power user 可以对 Claude Code 极度满意,同时信任校准很差——表现为对它擅长的事过度审查(浪费注意力),对它会翻车的事盲目 auto-accept(积累技术债)。满意度高的工具反而更危险:它降低你 review 的动机。这正是 Parasuraman & Manzey(2010,Human Factors,“Complacency and Bias in Human Use of Automation”)说的 automation complacency——而该研究的关键结论是:这种自满,训练和指令都消除不了,在专家身上和新手身上都出现。 换言之,“Rick 是 power user 所以信任校准一定好”是一个需要被证伪、而不是被假设的命题。

选 calibration 而不是 trust/satisfaction 作主框架,是因为只有 calibration 把”信任”和”可靠性”拆成两个可独立观察的量——这才给了”我的信任在哪偏了”这个可优化、可教学的抓手。


§1 隐性技能为什么必须显式化:Polanyi 的”我们知道的比能说出来的多”

Polanyi 默会知识与提示工程的认识论张力 已经论证过:Polanyi 的命题”we know more than we can tell”在提示工程里制造了一种认识论张力——好的提示依赖大量说不清的默会判断。信任校准是这个张力在”审阅环节”的精确翻版。 Rick 决定不看某个 diff,靠的是一团说不清的直觉:“这种任务它一般不会错""这个改动范围太大得看""它刚才那句话有点心虚”。这团直觉就是默会知识——它真实、它有效,但它不可教、不可审计、不可迁移给团队。

自我民族志在这里不是”写感想”,而是一次认识论操作:把默会知识强行外化(externalize)成可检视的命题。这件事有先例——Ericsson & Simon(1984,Protocol Analysis: Verbal Reports as Data,MIT Press)的出声思考法(think-aloud)正是为了把认知过程从黑箱里逼出来。但出声思考有个被反复记录的”理论-实践差距”:研究者频繁提示”你在想什么?“,而原始框架要求最少干预;同步出声还可能改变认知过程本身(双任务负担,至今无定论)。这给本节一个边界:把 Rick 的 auto-accept 直觉写成决策表,这个”写”的动作本身会让原本无意识的决策变得有意识,从而改变它——观察行为会扰动被观察对象。 所以下面的决策表,不是对 Rick 既有行为的”如实记录”,而是一次”显式化干预”,它的目的就是改变(优化)行为,因此必须诚实标注它不是中性测量。


§2 信任校准的二维结构:把”接受/拒绝”拆成”该不该接受/该不该拒绝”

把单一的”接受 vs review”决策拆成二维,是本节最关键的框架动作。借 Schemmer et al.(2023,arXiv:2302.02187,ACM IUI,“Appropriate Reliance on AI Advice: Conceptualization and the Effect of Explanations”,N=200,该文首次系统操作化了 appropriate reliance 构念,arXiv ID 经核实)提出的 Appropriateness of Reliance(AoR)双维度:依赖的质量 = 正确采纳率 ×正确拒绝率。映射到 auto-accept 决策:

AI 这次输出实际正确AI 这次输出实际有错
我 auto-accept(不看 diff)✅ 正确依赖(省了注意力)❌ 过度依赖 / 漏检(埋雷)
我逐行 review diff⚠️ 不必要的审查(浪费注意力,但安全)✅ 正确不信任(拦截到错误)

这张 2×2 立刻暴露了”凭感觉”的盲区:大多数 power user 只优化左下角和右上角的痛感(被坑了会记得、白看了会烦),而完全无法观测右下角的”漏检”——因为你 auto-accept 又没看,你根本不知道它错了。 这是信任校准最阴险的地方:过度依赖的代价是延迟显形的。Bansal et al.(2021,CHI,arXiv:2006.14779,“Does the Whole Exceed its Parts?”)给出一个反直觉的实证:AI 提供解释,会提高人类采纳建议的概率——不论建议对错。 即解释增加的是”无条件依赖”,而非”互补”。对 Claude Code 的直接含义:当它附上一段自信的”我做了 X 因为 Y”,你 auto-accept 的概率上升,而这段解释和这次改动是否正确并不相关。校准好的 power user,必须学会把”输出的自信度/解释完整度”和”输出的实际正确率”在心里解耦——这恰恰是难度所在。


§3 触发条件框架:从”凭感觉”到一张可证伪的决策表

下面给出一个信任校准触发条件框架——一组”维度”,每个维度都是一个可能推动 Rick 从 auto-accept 滑向 review(或反向)的变量。框架是我(综合 agent)依据可观察证据和文献提出的假设;每个维度的实际取值必须由 Rick 内省填入,我不替他编造。

升向 review(信任应当下调)的候选触发:

  1. 改动半径(blast radius):改动跨越的文件数 / 是否触及核心模块 / 是否不可逆(如删除、迁移、对外接口变更)。半径越大,错误的下游成本越高,越该看。
  2. 可验证成本:Vasconcelos et al.(2023,arXiv:2212.06823,CSCW,N=731,5 项研究,“Explanations Can Reduce Overreliance on AI Systems During Decision-Making”,arXiv ID 经核实)的成本-收益框架指出——解释能否减少过度依赖,取决于它是否降低了认知验证成本。映射:当验证一个改动比自己重写还贵时,人会倾向直接接受(理性的偷懒)。所以”难验证”的输出反而是高风险区。
  3. 任务的可逆性与 stakes:写一次性脚本 vs 改生产配置,校准阈值应当不同。
  4. AI 的”心虚信号”:输出里出现 hedging(“应该可以""大概”)、自我矛盾、或与上一轮不一致。
  5. 本会话的近期错误率:它这一小时内已经翻过车——贝叶斯地说,下一次出错的后验概率上升。

降向 auto-accept(信任可以上调)的候选触发:

  1. 任务模式匹配历史高可靠区:某类任务(如格式化、确定性重构、有测试覆盖的改动)历史上几乎不出错。
  2. 存在外部安全网:有 CI / 测试 / 类型检查 / lint 兜底——错误会被下游机制拦截,人不必当第一道闸。
  3. 改动可被一眼扫验:diff 小、语义局部、改动符合预期形状。

[!note] 〔Rick 待填:你的 auto-accept vs review 触发条件〕 以下是把上述框架接地到你真实行为的结构化模板。请按你的实际观察填写——不要给”理想中应该怎样”,要给你昨天/上周实际怎么做的。可在旅途中或下次用 Claude Code 时即时记录(diary study 式即时记录,比事后回忆准;见 §6 的方法边界)。

A. 我几乎总是直接 auto-accept、不看 diff 的任务类型(列 3–5 个具体类型):

  1. 〔Rick 待填:例如”……”〕
  2. 〔Rick 待填〕
  3. 〔Rick 待填〕 对这些类型,我赌的是什么?(如”赌 CI 会兜住""赌它在这类任务上从没坑过我”):〔Rick 待填〕

B. 我一定会逐行 review diff 的硬触发(列 3–5 个):

  1. 〔Rick 待填:例如”任何触及 X 的改动”〕
  2. 〔Rick 待填〕
  3. 〔Rick 待填〕

C. 模糊地带——我也说不清当时凭什么决定的情形(这一格最有价值): 〔Rick 待填:描述一两次”我当时 auto-accept 了,事后想想其实该看”或反过来的具体事件。这正是默会知识浮出水面的地方。〕

D. 我怀疑自己校准偏了的方向(自我诊断,不是自夸):

  • 我可能在〔哪类任务〕上过度依赖(该看没看):〔Rick 待填〕
  • 我可能在〔哪类任务〕上审查过度(白看,浪费注意力):〔Rick 待填〕

E. 引导问题(帮助回忆): 上一次你被 Claude Code 的输出坑到、且原因是”你 auto-accept 没看”——是什么任务?你事后修改了你的接受习惯吗?


§4 判断主轴:90% 的 power user 在信任校准上会栽的四个点

这是本节的命门。每点带”症状 → 为什么会错 → 正确做法 → 真实反例”。

栽点一:把”工具的平均可靠性”当成”这一次的可靠性”。

  • 症状:因为”Claude Code 总体很强”,就对这一次的具体输出降低警惕。
  • 为什么会错:校准的单位是任务-情境,不是工具。Lee & See 的可靠性是条件可靠性 P(正确 | 这类任务),不是边际可靠性。把高平均当成每次都高,就是 overtrust 的定义。
  • 正确做法:信任分任务类型存放,而不是一个全局标量。建立”它在哪类任务上可靠、哪类上不”的分区地图(即 §3 的 A/B 两栏)。
  • 真实反例:模型在常见框架的样板代码上接近 100% 可靠,但在小众库的边角 API 上会自信地编造不存在的方法——同一个工具,两个截然不同的可靠区。用平均值 auto-accept 后者,必埋雷。

栽点二:把”自信的解释”误读为”正确的证据”。

  • 症状:输出附了一段条理清晰的解释,于是我 auto-accept。
  • 为什么会错:Bansal et al.(2021)已证实解释提升的是无条件采纳率,与对错无关;Jain et al.(2025,arXiv:2510.26518,“Human-AI Complementarity: A Goal for Amplified Oversight”,arXiv 标题/作者/结论已核实;作者多为 Google DeepMind 研究者,机构归属〔以论文页脚为准〕)进一步发现:给”AI 标签 + 置信度 + 解释”会导致过度依赖,而给”搜索结果 + 证据”才促成适当信任(结论原文经核实)。解释是说服力,证据是可独立核验的外部锚点,两者不同。
  • 正确做法:把”它说它做了什么”和”我能不能独立验证它真做了”分开。要的是后者(测试通过、diff 实际形状符合预期),不是前者。
  • 真实反例:模型解释”我已更新所有调用点”,听上去完备,实际漏了一个动态调用——解释的完整度和覆盖的完整度是两回事。

栽点三:只优化看得见的痛,忽略看不见的漏检(2×2 的右下格盲区)。

  • 症状:我只在”被坑过的地方”加强 review,对”从没暴露过的漏检区”零警惕。
  • 为什么会错:过度依赖的代价延迟显形——你 auto-accept 又没看,错误悄悄进了 codebase,可能几周后才以别的形式爆出,那时已无法归因到”当初没 review”。这是 §2 表格右下角永远缺数据的结构性原因。
  • 正确做法:定期做抽样回看——对一批已 auto-accept 的改动事后抽查,估计真实漏检率,给右下格补数据。这是把”信任校准”从单点决策升级为带反馈回路的系统。
  • 真实反例:这正对应 0418 审阅瓶颈专题 专题里 A06 自动化偏见与审阅疲劳 描述的机制——审阅疲劳让人对”看起来没问题”的输出停止实质审查,沦为橡皮图章(见 A02 审阅 验证 橡皮图章辨析)。

栽点四:把信任校准当成静态偏好,而非随会话演化的轨迹。

  • 症状:一旦形成”我信任 Claude Code 做 X”,就长期不更新。
  • 为什么会错:信任是动态轨迹(随交互史演变),不是常量。模型会升级(可靠区扩张)、会回归(某次更新引入新失败模式)、会因上下文窗口变长而行为漂移。把去年的校准用在今年,必然失准。
  • 正确做法:把校准当成需要持续重估的后验,尤其在模型/工具版本变更后主动重测一轮”它现在还可靠吗”。
  • 真实反例:Srinivasan & Thomason(2025,arXiv:2502.13321,“Adjust for Trust: Mitigating Trust-Induced Inappropriate Reliance on AI Assistance”,arXiv ID 经核实)的实验——按用户当下信任水平动态调整解释策略(高信任时给反驳、低信任时给支持),减少不当依赖约 38%、提升决策准确率约 20%(数字经该文核实)。它证明的正是:信任不该被当成固定输入,而该被主动”调”

§5 产品 PM 视角补盲:信任校准不是个人修养,是可设计的产品变量

跳出”工程 PM”视角,三个容易看走眼的点:

(1) 用户心理模型:信任校准能力是分层的,产品不能假设用户都是 power user。 Buçinca et al.(2021,arXiv:2102.09692,ACM PACMHCI,N=199,“To Trust or to Think: Cognitive Forcing Functions Can Reduce Overreliance”,arXiv ID 经核实)发现:认知强制干预(强制停顿、要求逐步看解释)确实降低过度依赖——但用户满意度最低,且效果受 Need for Cognition 个人差异调节,认知动机低的用户获益更小。 对 PM 的含义:你不能给所有用户上同一套”防过度依赖”的摩擦,会赶走低认知动机用户;也不能不上,会让他们盲目接受。这是一个必须分层的产品决策,不是一个开关。

(2) 商业模式张力:满意度和校准是冲突的 KPI。 一个降低 review 摩擦、让人爽快 auto-accept 的产品,留存和满意度更高,但用户的信任校准更差、漏检更多。把”接受率""会话时长”当北极星,会系统性奖励 overtrust。校准这个变量在常规产品指标里根本不可见——它是个负外部性。PM 必须主动设计 overreliance 的度量(呼应 Ibrahim et al. 2025,arXiv:2509.08010,“Measuring and mitigating overreliance to build human-compatible AI”,呼吁把 overreliance 指标纳入 LLM 评测核心),否则你优化的方向就是让用户更不会审。

(3) 合规与 stakes 边界:auto-accept 阈值应当随领域 stakes 浮动,且这件事不该全交给用户自觉。 在低 stakes 个人项目里高 auto-accept 是理性的;在受监管/高可靠场景里同样的习惯是事故源。产品应当根据上下文(仓库、环境标识、改动类型)动态收紧默认审阅强度,而不是给一个全局开关让用户在生产环境里继续用玩具项目的接受习惯。


§6 对手框架回应:自我民族志测得到信任校准吗?(接受 + 边界)

业界/方法论反方立场(接受其对的部分): 实证 HCI 主流会质疑——信任校准是个可被实验严格测量的量(用 AoR 双维度、控制变量、N=数百的被试间设计),你 Rick 一个人的内省日志,凭什么算数据?这个质疑对了一半:单一被试的自我观察,确实无法给出可推广的群体规律,存在社会期望偏差和事后合理化(post-hoc rationalization)——人会把无意识决策重构成一个听上去合理的理由,而非真实回忆当时的过程。Delamont(加的夫大学,2007、2012)对自我民族志”缺乏学术严谨性、是 navel-gazing(自我沉迷)“的批评,在这里有效。

本节坚持的边界与赌注: 但本节赌的不是”用 Rick 一个人代表所有 power user”。本节赌的是 Anderson(2006,Journal of Contemporary Ethnography,35(4),373–395,“Analytic Autoethnography”,已核实该文发表于 JCE 而非他刊)的分析式路径:Rick 是这个场域(极端 power user 的 AI 协作)的 Complete Member Researcher,他能拿到外部观察者拿不到的东西——那一团说不清的 auto-accept 直觉,本来就只有第一人称能接触到。实验测得了”群体在受控任务上的平均依赖率”,测不到”一个 N=1 的极端用户在真实工作流里说不清的触发条件”。两者不是替代,是互补:实验给可推广的骨架(Lee & See / Schemmer / Bansal 的框架),自我民族志给骨架填上第一人称的、否则永远不可见的血肉。边界很清楚:本节的产出是”假设生成”(hypothesis-generating),不是”假设检验”——§3 的决策表是给 Rick(和读者)自我优化用的、可证伪的个人模型,不是声称已被验证的普遍规律。 这也正是 Anderson 五特征里”理论承诺 + 与他者对话”对纯唤起式叙事的修正:写出来不是为了感动读者,是为了产出能被后续检验的命题。

社会期望偏差的具体防御: 为对冲事后合理化,§3 模板要求 Rick 即时记录(旅途中/用 Claude Code 当下),而非事后追忆——这借用 diary study / 经验采样(ESM,Csikszentmihalyi et al. 1977 首创)“在自然情境中实时记录”以对抗回忆失真的逻辑。


§7 跨域呼应:Polanyi 的”显式化悖论”——说出来的那一刻,它就变了

调度 Polanyi 默会知识与提示工程的认识论张力 的核心张力来精确化本节的方法论赌注。Polanyi 的命题有个常被忽略的下半句:默会知识之所以默会,部分是因为它一旦被完全显式化,往往就僵化或失真——把骑自行车的平衡感写成方程,并不能让你照着方程骑车,甚至会干扰本来流畅的动作。

这对本节是一个自反性的认识论陷阱:我们要把 Rick 的信任校准直觉显式化成决策表,但显式化这个动作本身可能:(a) 让原本快速、整体的直觉判断变成慢速、分步的规则套用,反而降低校准的实时质量(呼应 §1 出声思考的双任务负担);(b) 制造一个”看起来精确”的决策表,让 Rick 误以为已经掌握了自己的校准,从而停止对模糊地带的警觉。所以本节的赌注是:显式化的收益(可优化、可教学、可审计)大于它的失真代价——但只在”把显式化的表当成假设和训练轮,而非当成对默会判断的忠实转录”的前提下成立。 这条边界直接来自 Polanyi:决策表是脚手架,不是真相;当 Rick 的实际行为和表冲突时,要怀疑的是表,不是直觉。这正是 人类学 / 民族志 的厚描述(thick description)相对薄记录的优势——它保留情境与含混,而非把活的判断压成干瘪的 if-then。


§8 PM 决策启示:面试 / 选型 / 复现三类落地

  • 面试怎么用:当被问”你怎么评估一个 AI 编码工具好不好用”,不要答”看它准不准”。答:“我会区分平均可靠性信任校准成本——一个工具就算平均准,如果它的可靠区和不可靠区混在一起、让我无法低成本判断’这一次该不该信’,它的真实生产力就被审阅成本吃掉了。我会用一张 2×2(采纳/拒绝 × 实际对/错)来定位我对它的过度依赖区和审查过度区。“这一句话把你和”觉得好用”的候选人分开。
  • 选型怎么用:评估 AI 工具时,把”是否提供可独立验证的证据(而非仅自信的解释)“和”是否能按 stakes/上下文动态调整默认审阅强度”列为硬指标——这两点直接决定团队会不会系统性 overtrust(§4 栽点二、§5 第 3 点)。
  • 复现怎么用:见本专题 05 复现指南——把 §3 的决策表做成一个轻量 diary 模板,连续记录 N 次 auto-accept/review 决策 + 事后是否后悔,几周后回看,估计自己的真实漏检率,给 2×2 的右下格补数据。这是把”凭感觉”升级成”带反馈回路的个人校准系统”的最小可运行版本。

§9 与已有节点的关系(升级对照,不复述旧节点事实)

  • 对照 0418 审阅瓶颈专题 专题(这是本节最重要的升级对照):0418 从产品/机制视角问”如何降低审阅负荷”(S01 审阅成本分层剖面A04 Confidence-gated 自动执行 讲置信门控自动执行、A06 自动化偏见与审阅疲劳E01 Claude Code 确认与 Diff 机制剖解)。本节做的是视角升级 + 主体反转:0418 问”产品该怎么帮用户少审/审得对”,本节问”作为一个具体的人(Rick),我在审阅这一侧的隐性决策长什么样、怎么优化”。0418 是设计者视角的客观机制,本节是使用者视角的第一人称校准——Rick 的真实审阅行为,正是 0418 那套机制要服务的对象的一手数据。两者是机制(0418)与使用主体(0423 本节)的互补,不是重复:0418 告诉你”该给 auto-accept 配置什么阈值”,本节告诉你”一个真实用户的阈值实际怎么浮动、为什么”。
  • 对照 0414(Claude Code 体感专题):0414 描述”用 Claude Code 是什么体感”,本节把其中”审阅环节的体感”单独抽出、结构化成可证伪的信任校准模型——从”体验描述”升级到”决策框架”。
  • 对照 0422(民族志方法专题):0422 给出民族志/自我民族志的方法论地基(Anderson 分析式 vs Ellis 唤起式、反身性、效度争论),本节是该方法在”AI 信任校准”这一具体题材上的一次应用落地——0422 是方法论,本节是用该方法论产出的一个具体研究单元。
  • 对照 Skill 系统的本质:该节点把 Skill 理解为”procedural knowledge 的文档化封装”。本节是它的镜像命题——信任校准是一种尚未被文档化的 procedural knowledge;§3 的决策表正是一次”把审阅直觉封装成可复用规则”的尝试,和 Skill 把工作流封装成可复用脚本,是同一种”显式化默会过程”动作的两个方向。
  • 对照 Polanyi 默会知识与提示工程的认识论张力:见 §7,本节把该节点的张力从”提示工程”侧扩展到”审阅校准”侧,并补充了 Polanyi 的”显式化悖论”作为本节方法的自反性边界。

§10 关联节点

核心(必读):

延伸(可选):


修订日志

  • 2026-06-07 · R0 首稿(综合 agent):建立”信任校准 = 隐性技能、显式化才可优化/可教学”主轴;§0 双框架辨析(vs trust 标量 / vs 满意度);§2 引入 AoR 2×2 拆解;§3 给出八维触发框架 + 五格 〔Rick 待填〕 模板(A/B/C/D/E);§4 四个判断主轴栽点;§5 三点 PM 补盲;§6 对手框架(Delamont 批评 + Anderson 分析式辩护,接受+边界);§7 Polanyi 显式化悖论作自反性边界;§9 与 0418/0414/0422/Skill 本质/Polanyi 五处升级对照。所有 arXiv ID(2302.02187 / 2006.14779 / 2212.06823 / 2510.26518 / 2102.09692 / 2502.13321 / 2509.08010)来自方法接地证据包、标注已核实;Lee & See 2004、Parasuraman & Manzey 2010、Anderson 2006、Ericsson & Simon 1984、Schemmer 等经典与会议文献信息一致。绝未编造 Rick 内省数据——所有第一人称校准内容留 〔Rick 待填〕