Cohen Kappa 系数

一句话定义

Kappa 是把 Accuracy 减去随机基线、再归一化到 [-1, 1] 区间的版本——本质上是机会校正后的准确率，用来衡量两个评分者（或模型与真值）之间的一致性，扣除靠运气能拿到的部分。

$$\kappa = \frac{p_o - p_e}{1 - p_e}$$

可改写为：

$$\kappa = \frac{\text{Accuracy} - \text{随机基线 Accuracy}}{1 - \text{随机基线 Accuracy}}$$

本质类比：Kappa 最直接对应混淆矩阵中的 Accuracy，但是经过”随机基线”校正后的版本。
取值范围：κ = 1 完美一致；κ = 0 等同随机猜测；κ < 0 比随机还差（罕见但可能）。
解决什么问题：Accuracy 在类别不平衡时会虚高（95% 阴性场景下，全部预测阴性能拿 95%，但 Kappa ≈ 0），Kappa 把”白送的部分”扣掉。
与 MCC 的关系：在二分类下，Kappa 与 Matthews 相关系数数值高度接近；Kappa 来自评分者一致性传统，MCC 来自相关系数传统（Pearson 的 φ 变体），几何意义略有不同。
与 F1 的差异：F1 只看正类的 precision/recall 调和均值，对类不平衡只是部分鲁棒；Kappa/MCC 综合两类表现，更可信。
一句话记忆：扣掉白捡的部分之后，模型还剩多少真本事。

类不平衡的分类任务，如果只想看一个综合数字，Kappa 或 MCC 都比 Accuracy 更可信。这也是为什么医学诊断、内容审核、标注一致性评估等场景默认报 Kappa 而非 Accuracy——这些场景的基础分布天然倾斜，单看准确率会被多数类淹没。