R03 Confidence-gated Auto-accept 阈值实验

你的 AI 系统每天产出 1000 条输出，人类只有带宽审完 200 条。剩下 800 条，要么全部塞给人（审阅队列爆炸、橡皮图章化），要么全部自动放行（漏审风险不可控）。第三条路是 confidence-gated auto-accept：用一个校准后的置信度阈值 θ，把输出切成”高置信→自动执行”和”低置信→入人审队列”两段。本节点要解决的问题是——θ 到底设在哪？ 这不是拍脑袋的产品参数，而是一条可以用数据画出来的”漏审风险 vs 审阅量”权衡曲线（risk-coverage curve）；本节给方法、给可直接套用的实验模板、给结尾的陷阱清单。视角框架来自 selective prediction / abstention 文献，但我会把它从”模型拒答”重铸成”产品级的人机分流阈值”。

§0 为什么是”风险-覆盖率曲线”而不是”准确率阈值”

90% 的团队设阈值的第一反应是：“我们要 95% 准确率，所以把置信度卡在 0.95。” 这是错的框架，它混淆了三件事。

第一，置信度 0.95 ≠ 准确率 95%。只有当模型校准（calibrated）后，“模型说 0.95”才约等于”这类样本里 95% 真的对”。现代深度网络系统性过度自信（Guo et al., “On Calibration of Modern Neural Networks”, ICML 2017, arXiv:1706.04599），LLM 通过 verbalized confidence 给出的”我有 95% 把握”普遍虚高。没校准的 θ 是假刻度尺。

第二，“准确率阈值”是单点，而你真正要的是一条曲线：在每个可能的 θ 上，自动放行了多少比例（coverage，覆盖率/自动化率）、其中错了多少（selective risk，漏审风险）。这条 risk-coverage curve 才是决策对象——它告诉你”想把审阅量砍掉 60%，要承担多大漏审率”。这正是 selective classification 的核心框架（Geifman & El-Yaniv, “Selective Classification for Deep Neural Networks”, NeurIPS 2017）。

第三，最优 θ 不是技术常数，是业务风险偏好的函数。代码格式化建议错了无所谓，θ 可以低；医疗分诊建议错了致命，θ 要高到几乎不自动放行。所以本节点的产出不是”一个数字”，而是”画出曲线 + 标出你的风险预算落在曲线哪个点”。

[!note] 框架级辨析「准确率阈值」问的是”模型多准”；「风险-覆盖率曲线」问的是”在我能接受的漏审率下，能省多少审阅带宽”。前者是模型评估，后者是产品决策。本专题的核心命题——瓶颈是审阅带宽——决定了我们必须用后者。

§1 实验设计：四个必须先定义的量

量	符号	定义	谁来定
置信信号	s(x)	每条输出的置信度（softmax、verbalized、self-consistency 一致率、judge 打分）	工程
阈值	θ	s(x) ≥ θ 自动放行；否则入人审	PM（本实验的输出）
覆盖率	cov(θ)	自动放行比例 = #{s≥θ} / N。等价于”审阅量被砍掉的比例”	实验计算
选择性风险	risk(θ)	自动放行样本中的错误率 = errors among accepted / #accepted	实验计算

关键前提：你需要一个带 ground-truth 的标注集——每条输出有 s(x)，也有”人工判定对/错”的标签。没有这个标注集，整条曲线无从画起，这也是本实验和 0412 评测专题的硬连接：校准评测产出的可靠性图（reliability diagram）和标注集，正是 auto-accept 实验的输入。复用 0412 的校准 pass，不要另起炉灶。

样本量经验值：要让曲线在高 θ 段（你最关心的低风险区）统计上稳，建议每个 θ 分箱至少 50–100 条标注样本；若关注 risk < 5% 的极端区，需要更大样本，否则曲线尾部全是噪声。

§2 方法：四步画出权衡曲线并定 θ

Step 1 收集 (s, 对错) 配对。 在影子模式（shadow mode）下运行：系统照常把所有输出送人审，但同时记录每条的 s(x)。人审结论就是 ground truth。攒够标注集（建议 ≥1000 条，覆盖真实分布）。

Step 2 先校准，再扫阈值。 用温度缩放（temperature scaling，Guo 2017 的单参数后处理法，至今仍是实践标准）把 s 校准到与经验准确率对齐。校准前先看可靠性图：若曲线明显偏离对角线，未校准的 θ 不可信。

Step 3 扫 θ ∈ [0,1]，画 risk-coverage curve。 对每个 θ 计算 cov(θ) 和 risk(θ)，得到一条单调（理想情况）的曲线。横轴覆盖率、纵轴风险。曲线越靠左下、且高覆盖段风险上升越慢，说明置信信号越有”辨别力”（discrimination）。

Step 4 用业务风险预算切线定 θ。 反过来用：先定”可接受漏审率上限 R*“（如 2%），在曲线上找满足 risk(θ) ≤ R* 的最大覆盖率对应的 θ。这就是你的上线阈值。报告时给三档（保守/平衡/激进）让决策层选。

[!warning] 一个数字的杠杆阈值 θ 的选择对系统行为的影响，往往大于置信度估计方法（softmax vs MC Dropout vs ensemble）的选择——在模型能力足够时，方法间差异基本消失，θ 才是主导变量（Gaus et al., “Confidence-Gated Robot Autonomy: When Does Uncertainty Actually Help?”, arXiv:2605.18045, 2026, 图宾根大学）。别把工程精力全砸在置信度算法上而忽略阈值标定。

可直接套用的实验模板

【Auto-accept 阈值实验 · 一页纸模板】
1. 任务定义
   - 自动放行的动作是什么？（合并 PR / 发送回复 / 执行操作）
   - 漏审一条错误的代价量级？（可逆/不可逆、$、安全）
2. 数据
   - 标注集来源：____（影子模式 N=____ 条）
   - ground-truth 判定标准：____（谁标、标准是什么）
   - 置信信号 s(x)：____（来源 + 是否已校准）
3. 校准
   - 校准方法：温度缩放 / 其他
   - 校准前 ECE：____  校准后 ECE：____
   - 可靠性图是否贴对角线：是/否
4. 曲线
   - risk-coverage curve（附图）
   - 三个候选点：
     · 保守 θ=__ → cov=__% risk=__%
     · 平衡 θ=__ → cov=__% risk=__%
     · 激进 θ=__ → cov=__% risk=__%
5. 决策
   - 业务可接受漏审率上限 R*=____
   - 选定 θ=____，预期审阅量下降 ____%
6. 上线护栏
   - 漂移监控指标：____（见 §3）
   - 兜底审计抽样率：____%（被自动放行的也抽查）
   - 回滚条件：实际 risk 连续 __ 天 > R*

§3 判断主轴：90% 的团队在阈值实验上会踩的五个坑

每点带「症状 → 为什么会错 → 正确做法 → 真实反例」。

坑 1：用未校准的置信度直接当阈值。

症状：上线后实际漏审率远超曲线预测，“0.95 的怎么也会错”。
为什么会错：现代网络过度自信，0.95 的真实准确率可能只有 0.80。
正确做法：先温度缩放校准 + 看可靠性图，再扫 θ。
反例：Guo 2017 实测 ResNet 在 CIFAR-100 上置信度与准确率严重脱节，校准前后差距以十个百分点计。

坑 2：把”校准好”当成”逐样本安全”。

症状：模型整体校准完美，但单条放行还是踩雷。
为什么会错：校准（calibration）保证的是批量平均损失可靠，不保证模型能识别单个样本上的错误——这两个属性正交。一个对所有输入都输出 50% 的模型可以完美校准，却对选择性放行毫无用处。
正确做法：除了 ECE，必须看 risk-coverage curve 在高覆盖段是否还压得住风险（discrimination），二者一起报。
反例：ICLR 2026 Blogpost “What (and What Not) are Calibrated Probabilities Actually Useful for?” 明确指出 Guo 2017 的动机示例本身就混淆了校准与选择性分类，后续文献继承了这一不精确性。

坑 3：用静态曲线管动态系统（分布漂移）。

症状：实验室曲线漂亮，上线三个月漏审率悄悄爬升。
为什么会错：θ 在结构性不确定性（冷启动、数据缺失）下近似单调有效，但在上下文漂移（时序/分布偏移）下会失效。
正确做法：在保留集上预先验证”秩对齐 + 无反转区”两个条件，并对漂移持续监控、定期重标定 θ。
反例：Doku, “The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?”, arXiv:2603.09947 (2026) 报告 contextual drift 下 AUC 从 0.71 跌到 0.61–0.62，门控近乎失效。

坑 4：把人审队列当”安全网”，却没看人审本身在退化。

症状：低置信都进了人审，以为有兜底，结果人审照样放行错误。
为什么会错：auto-accept 把简单的高置信样本拿走后，留给人的全是”难、模糊、模型都不确定”的样本——人审的认知负荷不降反升；同时”有 AI 把关”会诱发自动化偏见，人对入队样本也开始橡皮图章。更反直觉的是：加入人工监督有实证显示接受率上升但准确率下降。
正确做法：把人审队列也纳入度量（人审的实际纠错率），不要假设它是完美安全网；对人审样本提供 p304 - 防御性 UX：对抗延迟与幻觉的纠错三件套降低其负荷。
反例：Sele & Chugunova, “Putting a human in the loop: Increasing uptake, but decreasing accuracy of automated decision-making”, PLoS ONE 2024——“人在环路”组算法采纳率比”委托”组高 7pp，但预测误差从 17.4 升到 18.0 百分位，人类监督者”未能充当紧急制动器”。

坑 5：只优化平均漏审率，忽略漏审的”严重度分布”。

症状：整体 risk 达标，但放行的那几条错误恰好是最致命的。
为什么会错：risk(θ) 是平均量，把”无伤大雅的错”和”灾难性的错”混为一谈；高置信区也可能藏着语义 OOD（真正新颖情境），此时置信度门控接近随机猜测。
正确做法：对错误按代价分级，用代价加权风险（cost-weighted risk）而非裸错误率定 θ；对不可逆/高代价动作单独设更高的 θ 或强制人审。
反例：Gaus et al. (2026) 发现语义 OOD 检测接近随机，置信度门控在真正新颖情境下失效——而新颖情境往往正是高代价场景。

§4 产品 PM 视角补盲

工程视角到 §3 就够了，但 PM 还要补三个”看走眼”点。

用户心理模型：auto-accept 是在替用户做”信任决策”。 用户对”系统自动放行了哪些”是有感知预期的。θ 设太低（放行太多），一旦出事用户信任崩塌且崩塌速度远快于建立速度（信任不对称，见 p305 - 信任架构与可解释性设计）；θ 设太高（几乎不放行），产品退化成纯人审、自动化价值归零、用户觉得”AI 没用”。θ 不只是风险参数，是信任曲线上的产品定位。

商业模式：自动化率就是单位经济。 cov(θ) 直接等于”人力成本省下多少”。把 θ 调高 10 个点可能让人审成本翻倍——这是要进 PRD 和财务模型的硬权衡，不是工程内部参数。在向上汇报时，把 risk-coverage curve 翻译成”每多省 X% 人力，多承担 Y% 风险敞口”。

合规边界：某些动作法律上禁止全自动。 EU AI Act 第 14 条要求高风险 AI 的人类监督——但学界批评它只要求”让用户知道有自动化偏见”，不要求从设计上消除（Laux & Ruschemeier, “Automation Bias in the AI Act”, European Journal of Risk Regulation, 2025, arXiv:2502.10036）。对 PM 的含义：高风险类别即使曲线允许 θ 很高，合规也可能强制人审，θ 的上限是法律给的，不是数据给的。

§5 对手框架回应

反方立场（来自务实工程派）： “别搞这么复杂的曲线实验，直接设个高阈值（如 0.99）只自动放行最稳的，剩下全人审，简单可靠。”

接受的部分： 对的——在系统早期、标注集稀薄、风险代价极高时，保守高阈值确实是理性起点，省去了画曲线的工程开销，且高 θ 段对置信度方法不敏感（Gaus 2026），鲁棒。

坚持的边界与赌注： 但”拍一个高阈值”放弃了两样东西。其一，你不知道自己把多少本可安全自动化的样本浪费性地塞给了人——在审阅带宽是核心瓶颈的前提下，这是直接的产能损失。其二，没有曲线就没有漂移基线，上线后 risk 悄悄爬升你也看不见（坑 3）。我赌的是：当 AI 产量持续增长、人审带宽固定，“拍脑袋阈值”的机会成本会随规模线性放大，而画一次曲线 + 持续监控的固定成本是一次性的。 这个赌注在低产量、低增长场景会输——那时务实派对。

§6 跨域呼应：Simon 的注意力稀缺与”分流即分配”

[!note] 跨域调度 Herbert Simon 在 “Designing Organizations for an Information-Rich World” (1971) 提出：“信息的丰裕制造了注意力的贫瘠（a wealth of information creates a poverty of attention），需要在过载的信息源之间高效分配注意力。”

Simon 的洞察直接改写了本节点的技术判断。auto-accept 阈值表面是个”模型工程参数”，但从 Simon 的框架看，θ 本质是一台注意力分配机器的旋钮——它决定把人类这台稀缺的、不可扩展的审阅器，分配到哪些输出上。这个重构有三个后果：(1) θ 的目标函数不是”模型最准”，而是”人类注意力的边际收益最大化”——把人审带宽花在模型最不确定、最高代价的样本上（这正是为什么 §3 坑 5 要按代价加权）。(2) “自动放行”不是”省事”，而是 Simon 意义上的注意力节流阀：放行错了，损耗的是信任；放行少了，浪费的是稀缺注意力。两边都是注意力经济的成本。(3) 它解释了为什么 §3 坑 4 那么致命——如果 auto-accept 把简单样本拿走、却没降低人审的单位负荷，那只是把注意力贫瘠从”数量过载”转移成”难度过载”，没有真正缓解 Simon 命题。这是把一个调参问题，升格成注意力资源配置问题。链入 0117社会学的注意力经济脉络。

§7 PM 决策启示

面试怎么用： 当被问”AI 产品如何处理大规模输出”，不要答”加人审”。答：“我会做 confidence-gated auto-accept，先在影子模式攒标注集、温度缩放校准、画 risk-coverage curve，按业务可接受漏审率反推 θ，并对分布漂移持续监控。” 一句话区分”听过自动化”和”做过自动化”。
选型怎么用： 评估供应商的 AI 能力，别只看准确率，要问”你们暴露置信信号吗？校准过吗？” 没有可校准的置信信号，auto-accept 无从谈起，这是选型的硬门槛。
复现怎么用： 用 §2 模板，先跑影子模式两周，画出你自己产品的曲线。曲线的形状（高覆盖段风险上升多快）比任何 benchmark 数字都更能告诉你”这个模型在我的场景能不能放手自动化”。

§8 与已有节点的关系

对 p307 - Copilot 到 Autopilot 光谱：深化 + 操作化。p307 提出”基于 logprobs 置信度动态切换展示层级（>0.9 直接答案，0.6–0.9 带标注，<0.6 候选）“，但那些阈值是示例值。本节点补上”那些阈值到底怎么标定”的实验方法——p307 给光谱，R03 给刻度尺的校准工艺。不复述 L0–L4 框架。
对 c13 - 幻觉的不可消除性：承接 + 落地。c13 论证幻觉架构性不可消除、且模型最不确定时语气最自信（校准失准）。R03 是对 c13 的直接产品回应——既然幻觉消不掉、置信度还会骗人，就先校准置信度、再用阈值把”可控风险”和”必须人审”切开。c13 的”校准改善方向”（Temperature Scaling / 多次采样一致性）正是本节 Step 2 的工具。
对 0412 评测专题：输入依赖。0412 的校准评测（可靠性图、ECE、标注集）是 R03 的前置数据源。R03 不重做校准评测，直接消费它的产出。

§9 关联节点

核心（必读）

c13 - 幻觉的不可消除性 —— 为什么需要置信度门控的根因
p305 - 信任架构与可解释性设计 —— θ 决定信任曲线定位，信任不对称
p307 - Copilot 到 Autopilot 光谱 —— 本节点是其阈值标定的操作化
p304 - 防御性 UX：对抗延迟与幻觉 —— 人审队列的纠错三件套
0412 评测专题 —— 校准评测，本实验的数据输入

延伸（可选）

p302 - 七种 AI 交互设计模式 —— confidence-gated 作为一种交互模式
p306 - 数据飞轮与反馈回路设计 —— 人审结论回流标注集，闭环重标定 θ
Test-Time Compute —— self-consistency 多次采样作为置信信号来源
Softmax —— 最常见但最不可靠的裸置信信号
0117社会学 —— Simon 注意力经济
0114认识论 —— 审阅 AI 报告是 verification 还是 rubber-stamping
Agent · Claude Code —— agent 自动执行动作的阈值场景

修订日志

R1 (2026-06-07)：首稿。建立”风险-覆盖率曲线而非准确率阈值”框架；四步方法 + 一页纸实验模板；五坑判断主轴（校准/逐样本安全/漂移/人审退化/严重度分布）；接 0412 校准、p307 阈值光谱、c13 幻觉根因；Simon 注意力经济跨域呼应；务实工程派对手回应。
2026-06-11 P3.4 校链：0412 评测专题已入库，三处「待建/staging」降级文本恢复为真链 0412 评测专题（§1 硬连接、§8 输入依赖、§9 关联节点）。
2026-06-12 内审修复：修死链——0412 评测专题总览真实 basename 是 _评测系统化专题·总览（非 0412 总览），三处 0412 评测专题 改为 [0412 评测专题](/kb/专题-评测与度量/_评测系统化专题-总览/)（§1、§8、§9），别名「0412 评测专题」保留。