R

Cohen Kappa 系数

创建 2026-05-16 更新 2026-05-16 1 条双链 共创

Cohen Kappa 系数

一句话定义

Kappa 是把 Accuracy 减去随机基线、再归一化到 [-1, 1] 区间的版本——本质上是机会校正后的准确率,用来衡量两个评分者(或模型与真值)之间的一致性,扣除靠运气能拿到的部分。

公式

$$\kappa = \frac{p_o - p_e}{1 - p_e}$$

  • $p_o$(observed agreement)= 混淆矩阵对角线之和 / 总数 = 就是 Accuracy
  • $p_e$(expected agreement)= 两个分类器按各自边际分布独立猜测时的期望一致率

可改写为:

$$\kappa = \frac{\text{Accuracy} - \text{随机基线 Accuracy}}{1 - \text{随机基线 Accuracy}}$$

核心要点

  • 本质类比:Kappa 最直接对应混淆矩阵中的 Accuracy,但是经过”随机基线”校正后的版本。
  • 取值范围:κ = 1 完美一致;κ = 0 等同随机猜测;κ < 0 比随机还差(罕见但可能)。
  • 解决什么问题:Accuracy 在类别不平衡时会虚高(95% 阴性场景下,全部预测阴性能拿 95%,但 Kappa ≈ 0),Kappa 把”白送的部分”扣掉。
  • 与 MCC 的关系:在二分类下,Kappa 与 Matthews 相关系数数值高度接近;Kappa 来自评分者一致性传统,MCC 来自相关系数传统(Pearson 的 φ 变体),几何意义略有不同。
  • 与 F1 的差异:F1 只看正类的 precision/recall 调和均值,对类不平衡只是部分鲁棒;Kappa/MCC 综合两类表现,更可信。
  • 一句话记忆:扣掉白捡的部分之后,模型还剩多少真本事。

类不平衡鲁棒性排序

指标本质类不平衡敏感性
Accuracy$p_o$高(虚高)
Kappachance-corrected Accuracy
MCC类相关系数版 Kappa
F1precision/recall 调和均值中(只看正类)

工程实践

类不平衡的分类任务,如果只想看一个综合数字,Kappa 或 MCC 都比 Accuracy 更可信。这也是为什么医学诊断、内容审核、标注一致性评估等场景默认报 Kappa 而非 Accuracy——这些场景的基础分布天然倾斜,单看准确率会被多数类淹没。

关联