构念效度

一句话定义

构念效度（construct validity）是测量学的核心问题：一个测验/指标是否真的测到了它声称要测的那个构念（construct，一个无法直接观测、只能靠理论定义的抽象属性，如”智力""焦虑""多任务语言理解能力”）——而不是测到了别的东西，或只是测到了”会做这种题”。

核心要点

术语源头：由 Lee J. Cronbach 与 Paul E. Meehl 在 Construct Validity in Psychological Tests（Psychological Bulletin, 52(4), 281–302, 1955）中正式提出。问题意识是：人格、能力这类属性没有现成的”标准答案”做外部校标，于是要论证”测验分数能否支撑对该构念的解释”，需要一套不同于传统校标法的证据——他们引入”法则网络（nomological network）“，即把构念嵌入一张与其他变量的理论关系网中，看测验行为是否符合理论预言。〔Cronbach & Meehl 1955 为心理测量学经典，页码以原文为准〕
与内容效度的区分：**内容效度（content validity）**问的是”题目是否覆盖了构念的整个领域”——靠专家判断题面的代表性（如一份数学测验是否覆盖了该测的全部知识点）。
与效标效度的区分：**效标效度（criterion validity）**问的是”测验分数与一个外部’金标准’校标的相关有多高”——分同时效度（concurrent）与预测效度（predictive）。它需要有可信的外部校标存在。
整体观（现代主流）：Samuel Messick（1989/1995）把效度统一为以构念效度为核心的整体框架，认为内容效度与效标效度只是构念效度的不同侧面证据，而非并列的三种效度。换句话说，构念效度是统摄性概念。〔Messick 1989/1995 经典文献，版次以原文为准〕
关键陷阱：高信度 ≠ 高效度。一个指标可以非常稳定可复现（高信度），却系统性地测错了对象（低效度）——稳定地测错，仍然是错。
对 AI eval 的启示：benchmark 分数 ≠ 真实能力。说”模型在 MMLU 上 90 分”约等于把”会做四选一选择题”当成了”具备多任务语言理解”这个构念的操作化定义——这正是一次构念效度失败。学界已开始用这套语言系统审查 AI 评测：Measuring what Matters: Construct Validity in Large Language Model Benchmarks（arXiv 2511.04703）对 445 个 LLM benchmark、29 位评审做系统综述，发现绝大多数缺乏可辩护的构念效度；另有工作主张用 Cronbach-Meehl 的法则网络框架来给 LLM 能力测量补效度论证（arXiv 2603.15121）。〔以上为 2026-06 检索所得，arXiv 预印本，结论以原文为准〕

在本库的用法

本卡是 0412「评测」专题（04AI/04T 专题库/F1 评测与度量/0412 评测系统化专题/）引入的测量学对手框架的核心概念，专题用它来批评 AI benchmark”测的到底是不是它声称的能力”：

A01 评测概念史与语义流变 §7 把心理测量学的信度-效度框架作为”破 echo chamber”的对手框架引入，把 MMLU 的问题精确表述为”构念效度失败”。
A03 Benchmark 与数据污染、E01 RAGAS & RAG 评测体系剖解用它做”RAGAS 全绿 ≠ 好用”的审计——指标与人工高相关却仍不可信，因为二者共享同一个被窄化的操作定义，一起偏离了真正的构念。
定位：它是 0412 专题手里”评测有效性”的测量学武器——把”benchmark 该不该信”从口水仗，升级为”它有没有论证过 construct validity”的可追责提问。

关联节点

Goodhart 定律 — 互补的另一把刀：构念效度问”一开始测得对不对”，Goodhart 问”指标一旦成为优化目标后如何被腐蚀”。
c14 - 模型评估体系与 Goodhart 陷阱 — 模型评估体系总论，构念效度是其”为什么单一 benchmark 不可信”的测量学根据。
A06 Goodhart 与指标失效 — 0412 专题判断主轴；与本卡构成”测量层失效（效度）+ 治理层失效（Goodhart）“的双视角。
Cohen Kappa 系数 — 信度侧的量化工具；与效度同属信度-效度框架，注意”高信度可掩盖低效度”。