A04 校准与信任的认识论 · 知识库

我该不该信这份 AI 报告——这个问题在产品里通常被当成心理学问题（怎么让用户”感觉”AI 可靠）来解，但它其实是个认识论问题：用户对 AI 输出该有多大置信度（credence），不取决于界面让他感觉多可信，而取决于这个输出在认识论上值不值得信——即它是否由一个可靠的过程产生、用户的信任度是否与系统的真实可靠率对齐。本节用”信念辩护（warrant）＋校准信任（calibrated trust）“这套框架，论证一件对 confidence display 与 human-in-the-loop 设计有直接后果的事：信任校准的目标不是最大化信任，而是让信任度追踪真实可靠率；偏离这条线的任何方向——过度信任或不足信任——都是认识论失败。

§0 为什么用”校准”框架，而不是”信任度”框架

产品圈谈 AI 信任，默认框架是”信任度越高越好”——做可解释性、做引用、做 confidence 分数，目的都是”提升用户信任”。这个框架错在把信任当成单调的好东西。

正确的框架来自人因工程的奠基文献 Lee & See，“Trust in Automation: Designing for Appropriate Reliance”（2004，Human Factors 46(1):50–80，被引 4000+）。它的核心不是”信任”而是适当依赖（appropriate reliance）：信任程度应与自动化系统在当前任务语境中的实际可靠性相匹配。由此推出三类失配，每一类都是失败：

失配类型	症状	后果
过度信任（overtrust）	信任度 > 真实可靠率	自满（complacency）、自动化偏差、rubber-stamping
不足信任（undertrust）	信任度 < 真实可靠率	自动化厌恶（automation aversion）、放弃本可用的能力
分辨率不足（poor resolution）	信任不随子任务可靠率变化	无法在”AI 擅长 vs 不擅长”之间切换依赖

把”信任度”换成”校准”，立刻改变产品判断：一个让所有用户都更信任 AI 的设计，如果 AI 在某些子任务上其实不可靠，它制造的是过度信任——这是 bug，不是 feature。这也是为什么本节归在 01 概念辨析而非工程层：先辨析清楚”该信多少是认识论问题”，confidence display 的设计原则才有地基。

§1 warranted belief：信任的认识论资格

要谈”该信多少”，先要谈”什么样的信念才算有辩护（justified / warranted）“。这里有两条经典路线，对 AI 的适用性不同。

Goldman 的过程可靠主义（process reliabilism）：Gettier（1963，“Is Justified True Belief Knowledge?”，Analysis）证明”有辩护的真信念（JTB）“不足以构成知识后，Goldman 在”What is Justified Belief?”（1979）与 Epistemology and Cognition（1986，Harvard UP）提出：信念 B 有辩护，当且仅当 B 由一个可靠的认知过程产生——可靠 = 在相关条件下倾向于产生真信念。

Plantinga 的 warrant 理论（Warrant 三部曲，1993–2000，Oxford UP）：warrant 是”把真信念升格为知识”的那个属性，核心在正确功能（proper function）——信念形成机制须在其设计环境中按设计计划正确运作。

这两条路线对 AI 的区别很要紧：

按 Goldman，“该信 AI 多少”= AI 的输出过程在当前任务分布上是否可靠（一个可经验测量的频率问题）；
按 Plantinga，要问 AI 是否在”设计环境”内运行——一旦遇到分布外（OOD）输入，“正确功能”前提就破了，warrant 随之蒸发。

对 PM 的直接后果：confidence 分数若想承载认识论意义，它度量的必须是”过程可靠性”，而不是”模型对这个 token 序列的主观把握度”。LLM 的 token 概率不是 Goldman 意义上的过程可靠性——这正是下面校准问题的根。

§2 calibrated trust：把信任翻译成置信度

Ferrario 在”Justifying Our Credences in the Trustworthiness of AI Systems: A Reliabilistic Approach”（2024，Science and Engineering Ethics，PMC 开放获取）做了一件关键的事：把 Lee & See 的”校准信任”用认识论语言形式化——

校准信任 = 用户的置信度（credence）追踪系统实际正确运行的概率。

并把 Goldman 可靠主义延伸到 AI：对 AI 可信度的置信度本身是有辩护的，当且仅当它由一个可靠的评估过程产生——其中”可靠”定义为高比例的置信度与 AI 真实可信度相校准。

这给了我们一个可操作的双层结构：

第一层：AI 输出本身的可靠率（系统属性，可测）；
第二层：用户对”AI 这次该信多少”的判断过程，本身是否可靠（用户/界面属性，可设计）。

confidence display 的真正任务，是让第二层去逼近第一层。它不是”展示模型有多自信”，而是”帮用户的置信度去追踪系统的真实可靠率”。一旦想清楚这个，很多设计就翻转了——见 §4 的判断主轴。

[!note] 赌注本节赌的是：信任校准是认识论问题，不是心理学问题。心理学问题问”怎么让用户感觉可信”；认识论问题问”用户的信任度是否对齐真实可靠率”。如果未来证明在产品语境里二者无法分离（用户的”感觉”就是其全部置信度，没有独立的”真实可靠率”可供对齐），那么本节的整个框架会退化为一种修辞——这是我准备承担的边界。

§3 computational reliabilism：不透明也能有辩护

校准信任面临一个看似致命的反对：AI 是黑箱，用户根本看不到”过程”，何谈评估过程可靠性？

Durán & Formanek 在”Grounds for Trust: Essential Epistemic Opacity and Computational Reliabilism”（2019，arXiv:1904.01052，已核实）给出的回答是计算可靠主义（computational reliabilism, CR）：计算过程的输出可被信任，不需要透明性（完全可解释性），但需要四类可靠性依据——(1) 验证与确认（V&V）程序；(2) 鲁棒性分析；(3) 历史成功记录；(4) 专家判断。

这直接挑战了产品圈”AI 必须可解释才可信”的流行假设。CR 的认识论立场是：信任的根据是可靠性证据，而非内部可见性。 你不需要看见心脏怎么跳，只要有可靠的检测记录就能合理地信任诊断。

但 CR 有它自己的边界，Durán 本人也承认：第三类依据”历史成功记录”在分布漂移（distribution shift）下会失效——昨天可靠不等于今天可靠（“Responsible Assessment of Beliefs Based on Computational Results”，2026，Minds and Machines〔年份/卷期待核实〕讨论了这种 update opacity）。这对产品的含义是冷峻的：confidence 校准是一个会过期的资产，模型更新、用户输入漂移都会让旧校准失真——所以校准不是一次性标定，而是要纳入监测的运行态指标。

§4 判断主轴：90% 的人在校准上会搞错的四个点

错位一：把”模型自信”当成”该信的程度”

症状：直接把 LLM 的 token 概率/softmax 置信度暴露成 confidence 分数给用户。
为什么会错：模型最不确定时往往输出最自信——这是校准失败的经典表现（见 c13 - 幻觉的不可消除性的校准问题段）。token 概率度量的是”语言流畅度的把握”，不是 Goldman 意义上的”过程可靠率”。
正确做法：confidence 分数必须由外部可靠性评估（在留出集上测得的真实正确率、或一个独立校准器的输出）支撑，而非模型自陈。
真实反例：Renieris 等”AI Explainability: How to Avoid Rubber-Stamping Recommendations”（2025，MIT Sloan Management Review）指出的”explainability theater”——界面看起来在给依据，用户把流畅自信误读为高可靠，过度依赖反而上升。

错位二：以为”提升透明度”必然改善校准

症状：加了引用、加了 reasoning trace，就认定校准变好了。
为什么会错：反直觉证据显示更高透明度有时增加过度依赖——用户把”可解释”误读成”更可靠”（Renieris 2025 亦指此；“Trust, distrust, and appropriate reliance in (X)AI”，Visser 等 2023，arXiv:2312.02034，已核实，区分了 trust 态度与 reliance 行为，二者可分离）。
正确做法：透明度的认识论价值取决于接收者的认知能力。给一个无力评估证据的用户更多解释，不是校准，是装饰。引用系统必须配可核验性，而非仅可见性。
真实反例：Huemmer 等”AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving”（2026，arXiv:2601.17055，已核实）的纵向数据：困难任务上 AI 依赖率 73.9%，验证置信度降至 68.1%，实际准确率随难度降到 47.8%，信念—表现差距扩大到 34.6 个百分点。透明的输出没有阻止校准崩塌。

错位三：把”过度信任”和”不足信任”当成同一个问题的两个方向

症状：产品 KPI 只盯”提升用户信任/采纳率”。
为什么会错：采纳率上升可能是过度信任（依赖了不可靠输出），也可能是校准改善——单看采纳率无法区分。最大化信任 ≠ 最大化校准。
正确做法：度量 trust 与 reliance 的分离（2023 综述的核心方法论），并以”信任度—真实可靠率的对齐度”为目标函数，而非信任的绝对水平。
真实反例：荷兰儿童福利案、澳大利亚 Robodebt——制度上有”人在回路”，认识论上监督已失效，因为信任被结构性激励推到了过度区。

错位四：把”自满”当成可以靠培训消除的用户问题

症状：监督失效就上”操作员培训”。
为什么会错：Parasuraman & Manzey，“Complacency and Bias in Human Use of Automation”（2010，Human Factors 52(3)）的整合理论发现，自满在专家与新手中都出现，且训练与指导不足以克服——它是高可靠系统下注意力分配的结构性产物，不是个人疏忽。这一发现的可推广性仍有争议，但方向明确。
正确做法：把”反自满”做进系统设计而非培训——例如在 AI 高置信但任务高风险时主动触发 human-in-the-loop，强制独立判断（见 §7）。
追溯：Bainbridge，“Ironies of Automation”（1983，Automatica）早已指出：自动化越多，人越缺练习，技能越退化——这是自满的结构前提。

§5 产品 PM 视角补盲：校准的商业与合规面

用户心理模型：用户不会读 confidence 分数的小数点，他们读的是”这东西看起来靠不靠谱”的整体氛围。confidence display 若与产品的整体自信语气（流畅、肯定、无停顿）冲突，用户信的是语气不是分数。校准设计要管的是整体体感的信任投射，不只是一个数字控件。
商业模式张力：高采纳率是商业指标，校准是认识论指标，二者会冲突——一个诚实标注”此处我不可靠”的产品，短期采纳率可能低于一个一味自信的竞品。这是真实的产品赌注，不能假装不存在。
合规边界：EU AI Act（2024-08-01 正式生效；高风险系统义务自 2026-08-02 适用）要求高风险系统支持”有效的人类监督（effective human oversight）“。但”有效”如何翻译成认识论条件，学界无共识。程序上有”人在回路”≠ 认识论上有真正监督——Robodebt 是反面教材。合规审计若只查”有没有人在回路按钮”，查不出 rubber-stamping。

§6 对手框架回应

可解释性派（XAI 主流立场）：“信任的前提是可理解；不透明系统不应被信任。” —— 接受：在高风险、需问责的场景，可解释性是问责（accountability）的必要条件，CR 确实不直接处理责任归属（Durán 等也承认 CR 是认识论框架而非伦理框架）。边界：但”必须可解释才可信”作为普遍原则是错的——computational reliabilism 证明可靠性证据可以为信任提供独立辩护，否则没人能信任任何复杂仪器（核磁、引力波探测都是不透明的）。我赌的是：对绝大多数 AI 产品决策，“可核验的可靠性记录”比”可解释的内部机制”更可得也更可靠；要求可解释会让 PM 决策无限期等待。

纯信任最大化派（增长视角）：“用户更信任就是更好的产品。” —— 接受：信任不足（automation aversion）确实浪费已有能力，是真实成本。边界：但信任是双向标量，过度信任的成本（自满、rubber-stamping、错误放大）在高风险场景远高于不足信任。目标必须是校准，不是最大化。

§7 跨域呼应：校准理论作为认识论的形式化语言

校准（calibration）这个词本身就是跨域的接口——它在预报科学、概率论与心理学里都有精确定义：一个预报系统是良好校准的，当它说”70% 概率”的那些事件中，恰有约 70% 真的发生。 把这个定义搬进认识论，“该信 AI 多少”就有了可证伪的判据：AI（或界面）声称的 confidence 与其事件真实发生率之间的对齐度，是可测量、可绘图（reliability diagram）、可打分（如 ECE，expected calibration error）的。

这正是 Ferrario（2024）做的事的哲学意义：他把 Lee & See 的工程概念”校准信任”接回 Goldman 的可靠主义，使”信任”从一个心理状态变成一个可被认识论评估的频率匹配关系。于是”用户该不该信这份 AI 报告”不再是体验问题，而是一个有真值的命题：用户的置信度是否追踪了系统的真实可靠率。

这条跨域呼应链入 0114认识论：传统认识论问”什么是有辩护的信念”，校准理论给出了一个可运算的辩护标准——这对 AI 中介尤其关键，因为 AI 把”判断该信多少”的认知劳动外包给了系统，而校准是衡量这次外包是否合格的唯一客观尺子。它也呼应 Polanyi 默会知识与提示工程的认识论张力：评测本身是默会的——一个用户对”AI 这次靠不靠谱”的直觉判断，往往用不出明言的校准曲线，这正是 LLM-as-judge 不可靠、也是 confidence display 难做的认识论根。

§8 PM 决策启示

面试：“你怎么设计 AI 报告的 confidence display？“——答案不是”展示模型置信度”，而是”先问这个分数度量的是过程可靠率还是 token 概率；目标是让用户置信度追踪真实可靠率，过度信任和不足信任都是失败”。一句话区分了懂校准和不懂的人。
选型：评估一个 AI 供应商，别只看准确率，要看它的 confidence 是否校准（有没有 reliability diagram、ECE，会不会随模型更新重标定）。一个准确率 90% 但严重过度自信的系统，比准确率 80% 但良好校准的系统更危险——后者你知道何时别信它。
复现：human-in-the-loop 的触发条件不该按”AI 置信度低”触发，而该按”任务风险 × 校准不确定性”触发——在 AI 高置信但处于分布漂移/高风险区时强制人工独立判断，对抗 §4 错位四的结构性自满。

§9 与已有节点的关系

对 c13 - 幻觉的不可消除性：c13 已论证”模型最不确定时最自信”是架构性校准失败。本节做升级——不复述其架构成因，而是把”校准失败”从模型属性提升为信任的认识论判据：c13 说明了为什么 token 概率不可信，本节说明了”那该信什么、信多少”的认识论答案（过程可靠性 + Ferrario 式置信度追踪）。
对 0426（认知科学专题）：0426 处理校准的心理机制（人如何形成可靠性直觉、元认知如何失灵）。本节做对话+纠偏——坚持信任校准首先是认识论的频率匹配问题，心理机制是实现层；二者互补：认识论给出”该校准成什么样”，认知科学给出”人实际会偏向哪里”。
对 0419（对齐专题）：0419 的对齐处理”AI 目标是否对齐人类价值”。本节是其认识论侧翼——即便目标对齐，用户的信任度仍需对齐 AI 的真实能力；这是”信念层对齐”，与”价值层对齐”正交。Huemmer 的 verification bottleneck 把 0418（审阅瓶颈）的产品机制接到了本节的认识论根：审阅之所以成为瓶颈，是因为校准在最需要验证处崩塌。

§10 关联节点

核心（必读）

c13 - 幻觉的不可消除性 —— 校准失败的架构成因，本节的事实地基
Polanyi 默会知识与提示工程的认识论张力 —— 评测的默会性，confidence display 之难的认识论根
0114认识论 —— 可靠主义、辩护、Gettier 的母体框架
幻觉 —— 不可信输出的来源

延伸（可选）

Agent —— 自主系统中的依赖与监督
RAG —— 引用/grounding 作为可核验性的工程手段
0117社会学 —— 制度性监督失效（Robodebt 类）的结构视角
AI PM 知识图谱·总索引 —— 全局入口

§11 待建概念清单（死链候选，不在主库建 stub）

以下为本节调度但 vault 中尚无确认节点的概念/人物，登记备查，正文已降级为普通文本：

Goldman / Alvin Goldman（过程可靠主义）— vault 仅有 0114认识论内 社会认识论 概念条目，无独立人物卡
Plantinga（warrant / proper function）
Lee & See（appropriate reliance，2004）
Ferrario（reliabilistic credence in AI，2024）
Durán & Formanek（computational reliabilism，2019）
Parasuraman & Manzey（automation complacency，2010）
Bainbridge（Ironies of Automation，1983）
calibrated trust / appropriate reliance / automation complacency / computational reliabilism（概念卡）
校准（calibration）/ ECE / reliability diagram（概念卡）

修订日志

R1（2026-06-07）：首稿。建立 warranted belief（Goldman/Plantinga）→ calibrated trust（Lee & See / Ferrario）→ computational reliabilism（Durán）三层框架；判断主轴四错位（模型自信≠该信程度、透明度≠校准、过度/不足信任、自满不可培训消除）；跨域接入校准理论的形式化语义；与 c13/0426/0419/0418 升级对照。
R1.1（2026-06-07）：grounding pass。WebFetch 核实 arXiv:1904.01052（Durán & Formanek）、2312.02034（Visser 等）、2601.17055（Huemmer 等，并补 68.1% 验证置信度数字）三条，移除〔待核实〕。仅余 Minds and Machines 2026 卷期未单独 fetch，保留〔年份/卷期待核实〕。
2026-06-12 内审修复：§合规边界 EU AI Act 生效口径统一为”2024-08-01 正式生效；高风险系统义务自 2026-08-02 适用”（权威值，呼应总览 §8 QC #5）；Minds and Machines 2026 卷期仍诚实保留〔待核实〕。