R01 评估一个 AI 输出的认识论地位
你手里有一段 AI 输出——一份竞品分析、一条 SQL、一段引用了三篇论文的综述、一个安全策略的风险判定。问题不是”它对不对”,而是”它是什么”:它是知识,还是知识的模拟(simulation of knowledge)?你点头通过,是 verification(验证)还是 rubber-stamping(橡皮图章)?本节点提供一个可手动执行的评估框架——把”我信不信”这种含混的主观态度,拆成**可溯源 / 可验证 / 有保证(warranted)**三条可操作的认识论测度,给出一张评估清单,并论证一个反直觉的结论:同一段 AI 输出的认识论地位不是固定的,它随场景、随你的核验能力、随下游决策的可逆性而变。 这直接决定你在产品里把 human-in-the-loop 的闸门装在哪、把 confidence display 调成什么颗粒度。
本节点是 05 复现指南的”认识论操作手册”——把整个专题的哲学(A02 知识 vs 知识的模拟 的概念辨析、Polanyi 默会知识与提示工程的认识论张力 的默会边界、社会认识论的证言条件)压缩成一套你今天就能对着一段输出跑一遍的判定流程。它不是教你”如何信任 AI”,而是教你如何给信任定级。
§0 为什么是”认识论地位”框架,而不是”准确率”框架
PM 评估 AI 输出的默认框架是准确率 / 事实核查:“这条对不对?“这个框架不是错,是不够——它只覆盖了”真”(truth),漏掉了知识的另外两个古典构件:辩护(justification)与信念来源的可靠性。
经典知识论自柏拉图《泰阿泰德篇》以来把知识刻画为”有辩护的真信念”(Justified True Belief, JTB)。Edmund Gettier 1963 年那篇仅 3 页的 “Is Justified True Belief Knowledge?”(Analysis)用两个反例证明:一个信念可以同时是真的、有辩护的,却仍然不是知识——因为它的真值来自运气,而非正确的认识路径(见 0114认识论 的盖梯尔问题条目)。
这正是 AI 输出的核心结构性风险。一段 LLM 输出可能事实上为真(地球是圆的),但模型抵达这个”真”的路径,对用户完全不透明——你无法判断它是经由可靠的推理,还是训练数据里的偶然模式对齐。AI 输出在结构上天然处于 Gettier 情境:输出正确 ≠ 经由可靠过程产生的知识。如果你只用”准确率”框架,你会把一堆 Gettier 式的”幸运正确”误判为知识,而它们随时会在分布漂移、长尾问题上塌方。
所以本框架的三轴不是”对不对”,而是:
- 可溯源(Traceability):这个断言的来源能不能被追到、被独立打开?(对应辩护链)
- 可验证(Verifiability):在我当前的能力与成本约束下,我能不能独立检验它?(对应你自己的核验过程是否可靠)
- 有保证(Warrant):我接受它而形成的信念,是不是由一个可靠的评估过程产生的?(对应 Goldman 过程可靠主义 / Plantinga 的 warrant)
“准确率”框架问的是输出;“认识论地位”框架问的是输出 + 你的接受过程这个整体。后者才是 verification 与 rubber-stamping 的真正分界。
§1 三轴定义与判定标尺
1.1 可溯源(Traceability)
定义:输出中每个可证伪的断言,是否附带可被独立打开的来源指针,且该指针真实指向支持该断言的内容。
注意两个常被混淆的层次:
| 层次 | 症状 | 认识论地位 |
|---|---|---|
| 无引用 | 纯生成,无任何来源 | 不可溯源,最高风险 |
| 有引用、不可打开 | 列了”据 XX 研究”,但无链接/无法定位 | 伪溯源(citation theater) |
| 有引用、可打开、不支持 | 链接真实存在,但内容不支持该断言 | 引用幻觉(最隐蔽,下游最危险) |
| 有引用、可打开、且支持 | 来源真实且确实蕴含断言 | 真溯源 |
第三行是杀手。这正是 c13 - 幻觉的不可消除性 中”引用幻觉”的产品化形态:grounding 层(检索到的文档)与引用层(生成的引文)的不一致耦合——RAG 检索回了正确文档,但生成环节仍可能把引文张冠李戴。可溯源不等于已被溯源:列出来源只完成了第一步,“打开来源并确认它支持断言”才是溯源的实质。
1.2 可验证(Verifiability)
定义:在你当前的领域能力、工具与成本约束下,你能否独立形成对该断言真值的判断,而不必依赖输出本身的自信度。
可验证性是相对于核验者的,不是输出的内在属性。同一条 SQL,对会读执行计划的数据分析师是高度可验证的,对不懂 SQL 的运营是不可验证的。这把 Paul Humphreys(Extending Ourselves, 2004)的认识不透明性(epistemic opacity)落到了个体层面:若你不了解某过程中所有认识相关要素,该过程对你而言就是认识不透明的。
关键区分三档:
- 可廉价验证:成本低于自己重做(如一段可运行的代码,跑一遍就知道)。
- 可昂贵验证:能验证但成本接近或超过自己重做(如核对一份 20 页综述的每条引用)。
- 本质不可验证:原则上无法在决策时点验证(如对未来的预测、对默会判断的复述——见 Polanyi 默会知识与提示工程的认识论张力,最值钱的判断恰恰是”能知道的多于能言说的”,因而进不了任何可核验的命题集)。
1.3 有保证(Warrant)
定义:你接受该输出而形成的信念,是否由一个可靠的评估过程产生。
这一轴最哲学,也最关键,因为它评估的不是输出而是你。Alvin Goldman 的过程可靠主义(“What is Justified Belief?”, 1979)主张:信念有认识论正当性,当且仅当它由一个倾向于产生真信念的可靠过程产生。Andrea Ferrario(“Justifying Our Credences in the Trustworthiness of AI Systems”, 2024, Science and Engineering Ethics)把它直接延伸到 AI:你对 AI 可信度的置信度(credence)是有正当性的,当且仅当它由一个可靠的评估过程产生——而”可靠”在此被定义为你的置信度与 AI 实际可信度的高度校准。
换句话说:有保证 ≠ 输出是对的,也 ≠ 你觉得它对。有保证 = 你”觉得它对”这件事本身是由一个靠谱的判断流程得出的。 一个橡皮图章式的”通过”,即使输出碰巧正确,也是无保证的信念——因为产生它的过程(瞄一眼就点头)不可靠。
§2 评估清单(可直接执行)
把下面这张清单对着一段 AI 输出跑一遍。每项给”是/部分/否”,不要给模糊的”还行”。
A. 可溯源
- 每个关键事实/数字/引用,是否附带具体来源指针(不是”研究表明”)?
- 随机抽 2–3 条来源,能否被独立打开?
- 打开后,来源内容是否真的支持该断言(而非仅主题相关)?
- 推理型断言是否给出可检查的中间步骤(而非只有结论)?
B. 可验证 5. 在我当前能力下,这段输出整体属于:可廉价验证 / 可昂贵验证 / 本质不可验证? 6. 验证成本 vs 自己重做的成本,哪个更低?(若验证更贵,AI 没省事,反而引入了核验负债) 7. 输出是否把最不可验证的部分(预测、价值判断、默会经验)伪装成可验证的事实?
C. 有保证 8. 我是用一个可靠流程在评估,还是在被输出的流畅度与自信度牵着走? 9. 输出的自信表达,与我独立判断的把握度,是否校准?(警惕”最不确定处最自信”——c13 - 幻觉的不可消除性 的校准失效) 10. 如果这段输出是错的,我现在的核验方式能不能发现?(发现不了 = 无保证) 11. 我的”通过”是 verification 还是 rubber-stamping?(标尺见 §3)
D. 场景调节(决定上面三轴的及格线) 12. 下游决策可逆吗?(可逆 → 及格线低;不可逆/高风险 → 及格线高) 13. 错误的后果是谁承担?(自己 / 用户 / 受监管的第三方) 14. 这是一次性消费,还是会被复用、被他人引用、进入知识资产?
判定规则(启发式,非公式):
- A、B、C 任一为”否”,且 D 指向”不可逆 / 高后果 / 会被复用” → 降级为”知识的模拟”,必须 human-in-the-loop 或拒绝采纳。
- 三轴均”是”或可廉价补齐,且 D 指向”可逆 / 低后果 / 一次性” → 可作为”暂定知识”采纳,但仍登记其溯源状态。
- 中间地带是常态——这恰恰说明地位是连续谱而非二元。
§3 判断主轴:90% 的人会在这四处把”模拟”误判为”知识”
致命点 1:把流畅当有保证。
- 症状:输出文笔好、结构清晰、引经据典,你读完就点头。
- 为什么会错:流畅度是 LLM 的训练目标(语言建模 + RLHF),与真值正交。Renieris 等(“AI Explainability: How to Avoid Rubber-Stamping Recommendations”, 2025, MIT Sloan Management Review)称此为”explainability theater”——表面的可解释性增加了不当依赖,因为用户把可读性误读为可靠性。
- 正确做法:清单第 8、9 项强制你区分”输出的自信”与”我的把握”。
- 真实反例:Huemmer、Durner、Shyiramunda、Cummings-Koether(“AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving”, 2026, arXiv:2601.17055)的纵向研究中,参与者对困难任务的 AI 依赖率 73.9%,验证置信度持续下降(68.1%)恰恰发生在最该验证之处,最难一档实际准确率仅 47.8%,信念-表现差距扩大到 34.6 个百分点。
致命点 2:把”有引用”当”已溯源”。
- 症状:看到一串 [1][2][3] 就放心。
- 为什么会错:引用幻觉是 LLM 的结构性产物(c13 - 幻觉的不可消除性),列出来源与来源支持断言是两件事。
- 正确做法:清单第 2、3 项——随机抽样打开,确认内容支持。
- 真实反例:多起律师在法庭文书中提交 LLM 生成的虚构判例(2023 年起多国法院通报),引用格式完美、案号俱全、案件不存在。
致命点 3:把验证成本当成零。
- 症状:默认”AI 给了,我核一下就行”。
- 为什么会错:当验证成本 ≥ 自己重做成本时,AI 没有提供认识论增益,只把”生产”问题转译成了”验证”问题——而验证恰恰是更难的瓶颈(Huemmer 等 2026 的核心发现:“verification, not solution generation, became the bottleneck”)。
- 正确做法:清单第 6 项显式比较两个成本。若验证更贵,要么换更可验证的任务分解,要么承认这部分本质不可验证、按”模拟”对待。
- 真实反例:用 AI 写一段调用陌生内部 API 的代码——读懂并验证它是否正确处理了边界,往往比自己照文档写更慢。
致命点 4:把单一场景的地位当成普适地位。
- 症状:“这个模型在 X 上很靠谱,所以它的输出就是知识。”
- 为什么会错:认识论地位随场景变(见 §4)。在低风险 brainstorm 里成立的”暂定知识”,搬到不可逆的合规决策里立刻降级为”必须独立验证的模拟”。
- 正确做法:清单 D 组(12–14 项)把地位与决策可逆性、后果归属、复用性绑定。
- 真实反例:荷兰儿童福利算法案、澳大利亚 Robodebt 案——系统在制度上保留了”人在回路”,但人把每个场景都当成”系统已经判得很准”的低风险场景,于是监督在认识论上失效。〔案件存在已知,细节待核实〕
§4 认识论地位随场景变(本节点的核心论点)
前三节可能给人一个错觉:跑完清单就能给输出贴一个固定标签。不能。 同一段输出的认识论地位是一个随场景滑动的变量,至少受三个维度调节:
- 核验者能力(who):可验证性相对于核验者(§1.2)。同一段法律意见,对资深律师是可廉价验证的暂定知识,对外行是不可验证的模拟。
- 下游可逆性(what):可逆决策可以接受较低的认识论地位——错了能撤。不可逆/高后果决策要求三轴全绿。Durán & Formanek 的计算可靠主义(“Grounds for Trust: Essential Epistemic Opacity and Computational Reliabilism”, 2019, arXiv:1904.01052)正是此意:信任一个不透明系统不需要完全透明,但需要与风险匹配的可靠性依据(验证与确认程序、鲁棒性分析、实现历史、专家判断)。
- 复用性(how long):一次性消费 vs 进入知识资产。后者会被他人当作证言来源二次传播——此时它从”我的私人信念”升格为”社会认识论对象”:你成了 Goldman 意义上的”传播门卫”(gatekeeper),把模拟当知识转发出去,就把 Gettier 风险扩散给了下游所有人。
[!note] 赌注与边界 本框架赌的是:认识论地位的可操作化(三轴 + 场景调节)比”AI 可信度评分”更接近真相。它会在两种场景失效:(a) 当核验本身被自动化(用 AI 验证 AI),三轴中的”有保证”会退化——因为评估过程的可靠性又变成不透明的;(b) 当默会知识占主导(Polanyi 默会知识与提示工程的认识论张力),可验证轴整体失灵,框架只能告诉你”这里不可验证”,却无法替你判断。我承认框架在这两处是”标注问题”而非”解决问题”。
对产品的直接含义:地位随场景变,意味着 confidence display 不能是模型自报的一个标量,human-in-the-loop 的触发条件不能只看输出本身——必须把”核验者是谁、决策可逆吗、会不会被复用”编进闸门逻辑。一个把所有场景一视同仁的”AI 建议,请审阅”按钮,制造的正是 §3 致命点 4 的 rubber-stamping。
§5 对手框架回应:计算可靠主义说”不需要溯源也能有保证”
本框架重溯源、重独立验证,但有一个严肃的反方立场:Durán & Formanek 的计算可靠主义(Computational Reliabilism, CR)主张,对一个本质不透明的系统,你可以在完全不溯源、不理解内部机制的情况下,仍然形成有保证的信念——只要满足四类可靠性依据(验证与确认程序、鲁棒性分析、历史成功记录、专家判断)。按 CR,要求每条断言可溯源是”透明性迷信”。
接受:CR 对的部分很硬。很多高价值 AI 系统(深度学习医学影像、引力波探测的信号处理)确实不可逐步审查,却被科学共同体合理信任;坚持”必须可溯源才可用”会让你拒绝掉一整类有效工具。本框架的”可验证”轴也确实承认”本质不可验证”是一个合法档位。
边界与赌注:但 CR 的四依据中,“历史成功记录”在分布漂移下会失效(Durán 等 2026 在 Minds and Machines 的后续工作部分承认 update opacity 问题),而 LLM 的输出空间恰恰是开放、长尾、持续漂移的——它没有引力波探测那种稳定、可重复、被 V&V 包裹的运行域。所以我赌:对当前 LLM 的单次输出,CR 的”系统级可靠性”不足以替代”实例级溯源”。系统在 1000 次里对 950 次,不告诉你手上这一次是不是那 50 次之一。本框架的实例级三轴,正是为了堵住”系统可靠 ≠ 此条可靠”这个缺口。这也是 Rick 未读的对手框架之一(CR / Durán 学派),引入它恰恰逼出了本框架的适用边界:本框架适用于实例级、开放域、可逆性敏感的决策;CR 更适用于封闭域、有成熟 V&V、系统级长期信任的场景。
§6 跨域呼应:维特根斯坦的”语言游戏”与”看起来像知道”
调度资源:0601 维特根斯坦 后期哲学的”语言游戏”(language-game)与”遵守规则”(rule-following)。
维特根斯坦在《哲学研究》中论证:一个词的意义在于它在语言游戏中的用法,而非它指向的内部表征。一个系统能正确地走完”陈述—回应”的语言动作(speech act),不等于它”理解”——这与 幻觉 和中文屋论证(Searle 1980)同构,但维特根斯坦给出的不是”内部缺语义”的本体论判断,而是一个更锋利的认识论提醒:当 AI 输出在语言游戏的表面动作上与”一个知道的人会说的话”完全一致时,“它到底知不知道”这个问句本身可能是被误导的——我们能验证的,永远只是它在语言游戏中的表现(performance),而非它背后的状态(state)。
这直接改变本框架的”有保证”轴的判定:你永远无法从输出本身确证它是知识而非模拟,因为模拟与知识在语言游戏的表层是行为等价的(这正是图灵测试的设计前提,也是它作为”理解”判据失败的原因)。所以”有保证”必须来自评估过程的可靠性(外在主义、过程可靠主义),而不可能来自对输出的内省式审查(内在主义在 AI 面前破产)。维特根斯坦把这一点从”AI 特例”提升为”一切证言的普遍处境”:你对任何他者证言的接受,本就建立在行为表现而非心灵透视上——AI 只是把这个古老的证言问题(见 0117社会学 的社会认识论维度、Coady 的反还原主义证言理论)逼到了极端清晰。
§7 PM 决策启示
面试怎么用:当被问”你怎么保证 AI 功能的质量”,不要答”我们做事实核查”。答:“我把 AI 输出分三轴评估——可溯源、可验证、有保证——并把及格线绑定到决策的可逆性与复用性上。准确率只覆盖第一轴的一部分,真正的产品风险在第三轴:用户的’通过’是 verification 还是 rubber-stamping。” 这一句话把你从”测试思维”抬到”认识论产品设计思维”。
选型怎么用:评估一个 AI 供应商/模型时,除了 benchmark 分数,问三个本框架的问题——(1) 输出是否实例级可溯源(不是系统级声称可靠)?(2) 我的用户有没有能力廉价验证它的输出?(3) 它的 confidence 表达是否校准?三个都弱的供应商,是在卖”知识的模拟”。
复现怎么用:在你自己的 pipeline 里,把本节点的清单 D 组(场景调节)实现为路由逻辑:低可逆 + 高后果 + 会复用的输出,强制走 human-in-the-loop 且要求实例级溯源;可逆 + 一次性的,放行但登记溯源状态。这就是把”认识论地位随场景变”翻译成产品里的闸门触发条件——也是 0418 审阅瓶颈系统化专题 的审阅机制与本专题哲学层的接缝。
§8 与已有节点的关系
- 对 c13 - 幻觉的不可消除性:升级对照(深化 + 跨层)。c13 论证了幻觉在架构上不可降至零、给出四级应对(外部护栏/可溯源设计/不确定性外显/任务边界)。本节点不复述其架构性成因,而是接住它的产品结论往认识论上游推一层:c13 说”按永久失败模式设计契约”,本节点回答”那么如何对单条输出判定它处于哪个失败档位”——把”系统会幻觉”细化为”这一条是知识还是模拟”的实例级判定。c13 的”校准失效(最不确定时最自信)“在本框架中成为第 9 项清单的判据。
- 对 0418 审阅瓶颈系统化专题:本节点是其认识论地基。0418 讲审阅作为产品机制与注意力瓶颈;本节点回答”审阅在认识论上何时是真验证、何时是橡皮图章”——给 0418 的 human-in-the-loop 触发条件提供”为什么这里必须有人”的第一性理由。
- 对 0427 信息检索与知识系统系统化专题:本节点是其哲学层。0427 在知识产品层用 Polanyi 论证 L1 覆盖率有原理性天花板;本节点在认识论层论证”为什么进了向量库的也未必是知识”——溯源到了不等于有保证。
- 对 0419 对齐哲学系统化专题、0426 认知科学系统化专题:0419 处理”AI 想要什么”的对齐姿态,0426 处理用户侧的心智模型与认知负荷;本节点处理两者之间的中介物的认识论性质——AI 在用户与知识之间插入了一个什么性质的东西。三者构成”对齐(系统侧)—认识论中介(中介侧)—认知科学(用户侧)“的三联。
- 对 0114认识论:本节点是其在 AI 语境下的应用实例化(JTB / Gettier / 可靠主义 → AI 输出三轴),不复述古典知识论本身。
§9 关联节点
核心(必读)
- A02 知识 vs 知识的模拟(本专题概念地基)
- A01 AI 作为认识论中介概念谱系(中介性质三分谱系)
- c13 - 幻觉的不可消除性(产品化失败模式)
- Polanyi 默会知识与提示工程的认识论张力(可验证轴的边界)
- 0114认识论(JTB / Gettier / 可靠主义的古典源头)
- 0418 审阅瓶颈系统化专题(本框架的产品落点)
延伸(可选)
- 0601 维特根斯坦(语言游戏与”看起来像知道”)
- 0117社会学(社会认识论 / 证言的接受条件)
- 0427 信息检索与知识系统系统化专题(知识产品层)
- 0419 对齐哲学系统化专题(系统侧对齐)
- 0426 认知科学系统化专题(用户侧认知)
- 幻觉、RAG、Agent(技术底座)
待建概念清单(死链登记,勿在主库建 stub)
以下双链为本专题计划节点或尚未确认存在的概念,暂以普通文本承载,待专题入库时统一建:
A01 知识与知识的模拟(本专题 01 概念辨析节点,待建)0431 AI 认识论中介系统化专题(本专题总览,待建)- 计算可靠主义(Computational Reliabilism)/ Goldman 过程可靠主义 / 有保证的信念(warrant):均为概念,主库 0114认识论 内有”可靠主义”条目可承接,无需新建人物卡。
- Searle 中文屋、Humphreys 认识不透明性、Ferrario / Durán:人物/概念,主库无独立节点,文中以普通文本注明,勿建死链。
修订日志
- 2026-06-07 R1:首稿。建立可溯源/可验证/有保证三轴框架 + 14 项评估清单 + 四致命点 + “地位随场景变”核心论点;接入 CR 对手框架、维特根斯坦语言游戏跨域呼应;与 c13/0418/0419/0426/0427/0114 建升级对照。arXiv ID 与个别案件细节标〔待核实〕,待 grounding pass。