R

A04 校准与信任的认识论

创建 2026-06-07 更新 2026-06-12 0 条双链 AI 认识论中介 专题 AI 整理

我该不该信这份 AI 报告——这个问题在产品里通常被当成心理学问题(怎么让用户”感觉”AI 可靠)来解,但它其实是个认识论问题:用户对 AI 输出该有多大置信度(credence),不取决于界面让他感觉多可信,而取决于这个输出在认识论上值不值得信——即它是否由一个可靠的过程产生、用户的信任度是否与系统的真实可靠率对齐。本节用”信念辩护(warrant)+校准信任(calibrated trust)“这套框架,论证一件对 confidence display 与 human-in-the-loop 设计有直接后果的事:信任校准的目标不是最大化信任,而是让信任度追踪真实可靠率;偏离这条线的任何方向——过度信任或不足信任——都是认识论失败。

§0 为什么用”校准”框架,而不是”信任度”框架

产品圈谈 AI 信任,默认框架是”信任度越高越好”——做可解释性、做引用、做 confidence 分数,目的都是”提升用户信任”。这个框架错在把信任当成单调的好东西

正确的框架来自人因工程的奠基文献 Lee & See,“Trust in Automation: Designing for Appropriate Reliance”(2004,Human Factors 46(1):50–80,被引 4000+)。它的核心不是”信任”而是适当依赖(appropriate reliance):信任程度应与自动化系统在当前任务语境中的实际可靠性相匹配。由此推出三类失配,每一类都是失败:

失配类型症状后果
过度信任(overtrust)信任度 > 真实可靠率自满(complacency)、自动化偏差、rubber-stamping
不足信任(undertrust)信任度 < 真实可靠率自动化厌恶(automation aversion)、放弃本可用的能力
分辨率不足(poor resolution)信任不随子任务可靠率变化无法在”AI 擅长 vs 不擅长”之间切换依赖

把”信任度”换成”校准”,立刻改变产品判断:一个让所有用户都更信任 AI 的设计,如果 AI 在某些子任务上其实不可靠,它制造的是过度信任——这是 bug,不是 feature。这也是为什么本节归在 01 概念辨析而非工程层:先辨析清楚”该信多少是认识论问题”,confidence display 的设计原则才有地基。

§1 warranted belief:信任的认识论资格

要谈”该信多少”,先要谈”什么样的信念才算有辩护(justified / warranted)“。这里有两条经典路线,对 AI 的适用性不同。

Goldman 的过程可靠主义(process reliabilism):Gettier(1963,“Is Justified True Belief Knowledge?”,Analysis)证明”有辩护的真信念(JTB)“不足以构成知识后,Goldman 在”What is Justified Belief?”(1979)与 Epistemology and Cognition(1986,Harvard UP)提出:信念 B 有辩护,当且仅当 B 由一个可靠的认知过程产生——可靠 = 在相关条件下倾向于产生真信念。

Plantinga 的 warrant 理论Warrant 三部曲,1993–2000,Oxford UP):warrant 是”把真信念升格为知识”的那个属性,核心在正确功能(proper function)——信念形成机制须在其设计环境中按设计计划正确运作。

这两条路线对 AI 的区别很要紧:

  • Goldman,“该信 AI 多少”= AI 的输出过程在当前任务分布上是否可靠(一个可经验测量的频率问题);
  • Plantinga,要问 AI 是否在”设计环境”内运行——一旦遇到分布外(OOD)输入,“正确功能”前提就破了,warrant 随之蒸发。

对 PM 的直接后果:confidence 分数若想承载认识论意义,它度量的必须是”过程可靠性”,而不是”模型对这个 token 序列的主观把握度”。LLM 的 token 概率不是 Goldman 意义上的过程可靠性——这正是下面校准问题的根。

§2 calibrated trust:把信任翻译成置信度

Ferrario 在”Justifying Our Credences in the Trustworthiness of AI Systems: A Reliabilistic Approach”(2024,Science and Engineering Ethics,PMC 开放获取)做了一件关键的事:把 Lee & See 的”校准信任”用认识论语言形式化——

校准信任 = 用户的置信度(credence)追踪系统实际正确运行的概率。

并把 Goldman 可靠主义延伸到 AI:对 AI 可信度的置信度本身是有辩护的,当且仅当它由一个可靠的评估过程产生——其中”可靠”定义为高比例的置信度与 AI 真实可信度相校准。

这给了我们一个可操作的双层结构:

  1. 第一层:AI 输出本身的可靠率(系统属性,可测);
  2. 第二层:用户对”AI 这次该信多少”的判断过程,本身是否可靠(用户/界面属性,可设计)。

confidence display 的真正任务,是让第二层去逼近第一层。它不是”展示模型有多自信”,而是”帮用户的置信度去追踪系统的真实可靠率”。一旦想清楚这个,很多设计就翻转了——见 §4 的判断主轴。

[!note] 赌注 本节赌的是:信任校准是认识论问题,不是心理学问题。心理学问题问”怎么让用户感觉可信”;认识论问题问”用户的信任度是否对齐真实可靠率”。如果未来证明在产品语境里二者无法分离(用户的”感觉”就是其全部置信度,没有独立的”真实可靠率”可供对齐),那么本节的整个框架会退化为一种修辞——这是我准备承担的边界。

§3 computational reliabilism:不透明也能有辩护

校准信任面临一个看似致命的反对:AI 是黑箱,用户根本看不到”过程”,何谈评估过程可靠性?

Durán & Formanek 在”Grounds for Trust: Essential Epistemic Opacity and Computational Reliabilism”(2019,arXiv:1904.01052,已核实)给出的回答是计算可靠主义(computational reliabilism, CR):计算过程的输出可被信任,不需要透明性(完全可解释性),但需要四类可靠性依据——(1) 验证与确认(V&V)程序;(2) 鲁棒性分析;(3) 历史成功记录;(4) 专家判断。

这直接挑战了产品圈”AI 必须可解释才可信”的流行假设。CR 的认识论立场是:信任的根据是可靠性证据,而非内部可见性。 你不需要看见心脏怎么跳,只要有可靠的检测记录就能合理地信任诊断。

但 CR 有它自己的边界,Durán 本人也承认:第三类依据”历史成功记录”在分布漂移(distribution shift)下会失效——昨天可靠不等于今天可靠(“Responsible Assessment of Beliefs Based on Computational Results”,2026,Minds and Machines〔年份/卷期待核实〕讨论了这种 update opacity)。这对产品的含义是冷峻的:confidence 校准是一个会过期的资产,模型更新、用户输入漂移都会让旧校准失真——所以校准不是一次性标定,而是要纳入监测的运行态指标。

§4 判断主轴:90% 的人在校准上会搞错的四个点

错位一:把”模型自信”当成”该信的程度”

  • 症状:直接把 LLM 的 token 概率/softmax 置信度暴露成 confidence 分数给用户。
  • 为什么会错:模型最不确定时往往输出最自信——这是校准失败的经典表现(见 c13 - 幻觉的不可消除性 的校准问题段)。token 概率度量的是”语言流畅度的把握”,不是 Goldman 意义上的”过程可靠率”。
  • 正确做法:confidence 分数必须由外部可靠性评估(在留出集上测得的真实正确率、或一个独立校准器的输出)支撑,而非模型自陈。
  • 真实反例:Renieris 等”AI Explainability: How to Avoid Rubber-Stamping Recommendations”(2025,MIT Sloan Management Review)指出的”explainability theater”——界面看起来在给依据,用户把流畅自信误读为高可靠,过度依赖反而上升。

错位二:以为”提升透明度”必然改善校准

  • 症状:加了引用、加了 reasoning trace,就认定校准变好了。
  • 为什么会错:反直觉证据显示更高透明度有时增加过度依赖——用户把”可解释”误读成”更可靠”(Renieris 2025 亦指此;“Trust, distrust, and appropriate reliance in (X)AI”,Visser 等 2023,arXiv:2312.02034,已核实,区分了 trust 态度与 reliance 行为,二者可分离)。
  • 正确做法:透明度的认识论价值取决于接收者的认知能力。给一个无力评估证据的用户更多解释,不是校准,是装饰。引用系统必须配可核验性,而非仅可见性。
  • 真实反例:Huemmer 等”AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving”(2026,arXiv:2601.17055,已核实)的纵向数据:困难任务上 AI 依赖率 73.9%,验证置信度降至 68.1%,实际准确率随难度降到 47.8%,信念—表现差距扩大到 34.6 个百分点。透明的输出没有阻止校准崩塌。

错位三:把”过度信任”和”不足信任”当成同一个问题的两个方向

  • 症状:产品 KPI 只盯”提升用户信任/采纳率”。
  • 为什么会错:采纳率上升可能是过度信任(依赖了不可靠输出),也可能是校准改善——单看采纳率无法区分。最大化信任 ≠ 最大化校准。
  • 正确做法:度量 trust 与 reliance 的分离(2023 综述的核心方法论),并以”信任度—真实可靠率的对齐度”为目标函数,而非信任的绝对水平。
  • 真实反例:荷兰儿童福利案、澳大利亚 Robodebt——制度上有”人在回路”,认识论上监督已失效,因为信任被结构性激励推到了过度区。

错位四:把”自满”当成可以靠培训消除的用户问题

  • 症状:监督失效就上”操作员培训”。
  • 为什么会错:Parasuraman & Manzey,“Complacency and Bias in Human Use of Automation”(2010,Human Factors 52(3))的整合理论发现,自满在专家与新手中都出现,且训练与指导不足以克服——它是高可靠系统下注意力分配的结构性产物,不是个人疏忽。这一发现的可推广性仍有争议,但方向明确。
  • 正确做法:把”反自满”做进系统设计而非培训——例如在 AI 高置信但任务高风险时主动触发 human-in-the-loop,强制独立判断(见 §7)。
  • 追溯:Bainbridge,“Ironies of Automation”(1983,Automatica)早已指出:自动化越多,人越缺练习,技能越退化——这是自满的结构前提。

§5 产品 PM 视角补盲:校准的商业与合规面

  • 用户心理模型:用户不会读 confidence 分数的小数点,他们读的是”这东西看起来靠不靠谱”的整体氛围。confidence display 若与产品的整体自信语气(流畅、肯定、无停顿)冲突,用户信的是语气不是分数。校准设计要管的是整体体感的信任投射,不只是一个数字控件。
  • 商业模式张力:高采纳率是商业指标,校准是认识论指标,二者会冲突——一个诚实标注”此处我不可靠”的产品,短期采纳率可能低于一个一味自信的竞品。这是真实的产品赌注,不能假装不存在。
  • 合规边界:EU AI Act(2024-08-01 正式生效;高风险系统义务自 2026-08-02 适用)要求高风险系统支持”有效的人类监督(effective human oversight)“。但”有效”如何翻译成认识论条件,学界无共识。程序上有”人在回路”≠ 认识论上有真正监督——Robodebt 是反面教材。合规审计若只查”有没有人在回路按钮”,查不出 rubber-stamping。

§6 对手框架回应

可解释性派(XAI 主流立场):“信任的前提是可理解;不透明系统不应被信任。” —— 接受:在高风险、需问责的场景,可解释性是问责(accountability)的必要条件,CR 确实不直接处理责任归属(Durán 等也承认 CR 是认识论框架而非伦理框架)。边界:但”必须可解释才可信”作为普遍原则是错的——computational reliabilism 证明可靠性证据可以为信任提供独立辩护,否则没人能信任任何复杂仪器(核磁、引力波探测都是不透明的)。我赌的是:对绝大多数 AI 产品决策,“可核验的可靠性记录”比”可解释的内部机制”更可得也更可靠;要求可解释会让 PM 决策无限期等待。

纯信任最大化派(增长视角):“用户更信任就是更好的产品。” —— 接受:信任不足(automation aversion)确实浪费已有能力,是真实成本。边界:但信任是双向标量,过度信任的成本(自满、rubber-stamping、错误放大)在高风险场景远高于不足信任。目标必须是校准,不是最大化。

§7 跨域呼应:校准理论作为认识论的形式化语言

校准(calibration)这个词本身就是跨域的接口——它在预报科学、概率论与心理学里都有精确定义:一个预报系统是良好校准的,当它说”70% 概率”的那些事件中,恰有约 70% 真的发生。 把这个定义搬进认识论,“该信 AI 多少”就有了可证伪的判据:AI(或界面)声称的 confidence 与其事件真实发生率之间的对齐度,是可测量、可绘图(reliability diagram)、可打分(如 ECE,expected calibration error)的。

这正是 Ferrario(2024)做的事的哲学意义:他把 Lee & See 的工程概念”校准信任”接回 Goldman 的可靠主义,使”信任”从一个心理状态变成一个可被认识论评估的频率匹配关系。于是”用户该不该信这份 AI 报告”不再是体验问题,而是一个有真值的命题:用户的置信度是否追踪了系统的真实可靠率。

这条跨域呼应链入 0114认识论:传统认识论问”什么是有辩护的信念”,校准理论给出了一个可运算的辩护标准——这对 AI 中介尤其关键,因为 AI 把”判断该信多少”的认知劳动外包给了系统,而校准是衡量这次外包是否合格的唯一客观尺子。它也呼应 Polanyi 默会知识与提示工程的认识论张力:评测本身是默会的——一个用户对”AI 这次靠不靠谱”的直觉判断,往往用不出明言的校准曲线,这正是 LLM-as-judge 不可靠、也是 confidence display 难做的认识论根。

§8 PM 决策启示

  • 面试:“你怎么设计 AI 报告的 confidence display?“——答案不是”展示模型置信度”,而是”先问这个分数度量的是过程可靠率还是 token 概率;目标是让用户置信度追踪真实可靠率,过度信任和不足信任都是失败”。一句话区分了懂校准和不懂的人。
  • 选型:评估一个 AI 供应商,别只看准确率,要看它的 confidence 是否校准(有没有 reliability diagram、ECE,会不会随模型更新重标定)。一个准确率 90% 但严重过度自信的系统,比准确率 80% 但良好校准的系统更危险——后者你知道何时别信它。
  • 复现:human-in-the-loop 的触发条件不该按”AI 置信度低”触发,而该按”任务风险 × 校准不确定性”触发——在 AI 高置信但处于分布漂移/高风险区时强制人工独立判断,对抗 §4 错位四的结构性自满。

§9 与已有节点的关系

  • c13 - 幻觉的不可消除性:c13 已论证”模型最不确定时最自信”是架构性校准失败。本节做升级——不复述其架构成因,而是把”校准失败”从模型属性提升为信任的认识论判据:c13 说明了为什么 token 概率不可信,本节说明了”那该信什么、信多少”的认识论答案(过程可靠性 + Ferrario 式置信度追踪)。
  • 对 0426(认知科学专题):0426 处理校准的心理机制(人如何形成可靠性直觉、元认知如何失灵)。本节做对话+纠偏——坚持信任校准首先是认识论的频率匹配问题,心理机制是实现层;二者互补:认识论给出”该校准成什么样”,认知科学给出”人实际会偏向哪里”。
  • 对 0419(对齐专题):0419 的对齐处理”AI 目标是否对齐人类价值”。本节是其认识论侧翼——即便目标对齐,用户的信任度仍需对齐 AI 的真实能力;这是”信念层对齐”,与”价值层对齐”正交。Huemmer 的 verification bottleneck 把 0418(审阅瓶颈)的产品机制接到了本节的认识论根:审阅之所以成为瓶颈,是因为校准在最需要验证处崩塌。

§10 关联节点

核心(必读)

延伸(可选)

  • Agent —— 自主系统中的依赖与监督
  • RAG —— 引用/grounding 作为可核验性的工程手段
  • 0117社会学 —— 制度性监督失效(Robodebt 类)的结构视角
  • AI PM 知识图谱·总索引 —— 全局入口

§11 待建概念清单(死链候选,不在主库建 stub)

以下为本节调度但 vault 中尚无确认节点的概念/人物,登记备查,正文已降级为普通文本:

  • Goldman / Alvin Goldman(过程可靠主义)— vault 仅有 0114认识论 内 社会认识论 概念条目,无独立人物卡
  • Plantinga(warrant / proper function)
  • Lee & See(appropriate reliance,2004)
  • Ferrario(reliabilistic credence in AI,2024)
  • Durán & Formanek(computational reliabilism,2019)
  • Parasuraman & Manzey(automation complacency,2010)
  • Bainbridge(Ironies of Automation,1983)
  • calibrated trust / appropriate reliance / automation complacency / computational reliabilism(概念卡)
  • 校准(calibration)/ ECE / reliability diagram(概念卡)

修订日志

  • R1(2026-06-07):首稿。建立 warranted belief(Goldman/Plantinga)→ calibrated trust(Lee & See / Ferrario)→ computational reliabilism(Durán)三层框架;判断主轴四错位(模型自信≠该信程度、透明度≠校准、过度/不足信任、自满不可培训消除);跨域接入校准理论的形式化语义;与 c13/0426/0419/0418 升级对照。
  • R1.1(2026-06-07):grounding pass。WebFetch 核实 arXiv:1904.01052(Durán & Formanek)、2312.02034(Visser 等)、2601.17055(Huemmer 等,并补 68.1% 验证置信度数字)三条,移除〔待核实〕。仅余 Minds and Machines 2026 卷期未单独 fetch,保留〔年份/卷期待核实〕。
  • 2026-06-12 内审修复:§合规边界 EU AI Act 生效口径统一为”2024-08-01 正式生效;高风险系统义务自 2026-08-02 适用”(权威值,呼应总览 §8 QC #5);Minds and Machines 2026 卷期仍诚实保留〔待核实〕。