R

构念效度

创建 2026-06-12 更新 2026-06-12 4 条双链 共创

构念效度

一句话定义

构念效度(construct validity)是测量学的核心问题:一个测验/指标是否真的测到了它声称要测的那个构念(construct,一个无法直接观测、只能靠理论定义的抽象属性,如”智力""焦虑""多任务语言理解能力”)——而不是测到了别的东西,或只是测到了”会做这种题”。

核心要点

  • 术语源头:由 Lee J. Cronbach 与 Paul E. Meehl 在 Construct Validity in Psychological Tests(Psychological Bulletin, 52(4), 281–302, 1955)中正式提出。问题意识是:人格、能力这类属性没有现成的”标准答案”做外部校标,于是要论证”测验分数能否支撑对该构念的解释”,需要一套不同于传统校标法的证据——他们引入”法则网络(nomological network)“,即把构念嵌入一张与其他变量的理论关系网中,看测验行为是否符合理论预言。〔Cronbach & Meehl 1955 为心理测量学经典,页码以原文为准〕
  • 与内容效度的区分:**内容效度(content validity)**问的是”题目是否覆盖了构念的整个领域”——靠专家判断题面的代表性(如一份数学测验是否覆盖了该测的全部知识点)。
  • 与效标效度的区分:**效标效度(criterion validity)**问的是”测验分数与一个外部’金标准’校标的相关有多高”——分同时效度(concurrent)与预测效度(predictive)。它需要有可信的外部校标存在。
  • 整体观(现代主流):Samuel Messick(1989/1995)把效度统一为以构念效度为核心的整体框架,认为内容效度与效标效度只是构念效度的不同侧面证据,而非并列的三种效度。换句话说,构念效度是统摄性概念。〔Messick 1989/1995 经典文献,版次以原文为准〕
  • 关键陷阱:高信度 ≠ 高效度。一个指标可以非常稳定可复现(高信度),却系统性地测错了对象(低效度)——稳定地测错,仍然是错。
  • 对 AI eval 的启示:benchmark 分数 ≠ 真实能力。说”模型在 MMLU 上 90 分”约等于把”会做四选一选择题”当成了”具备多任务语言理解”这个构念的操作化定义——这正是一次构念效度失败。学界已开始用这套语言系统审查 AI 评测:Measuring what Matters: Construct Validity in Large Language Model Benchmarks(arXiv 2511.04703)对 445 个 LLM benchmark、29 位评审做系统综述,发现绝大多数缺乏可辩护的构念效度;另有工作主张用 Cronbach-Meehl 的法则网络框架来给 LLM 能力测量补效度论证(arXiv 2603.15121)。〔以上为 2026-06 检索所得,arXiv 预印本,结论以原文为准〕

在本库的用法

本卡是 0412「评测」专题(04AI/04T 专题库/F1 评测与度量/0412 评测系统化专题/)引入的测量学对手框架的核心概念,专题用它来批评 AI benchmark”测的到底是不是它声称的能力”:

  • A01 评测概念史与语义流变 §7 把心理测量学的信度-效度框架作为”破 echo chamber”的对手框架引入,把 MMLU 的问题精确表述为”构念效度失败”。
  • A03 Benchmark 与数据污染E01 RAGAS & RAG 评测体系剖解 用它做”RAGAS 全绿 ≠ 好用”的审计——指标与人工高相关却仍不可信,因为二者共享同一个被窄化的操作定义,一起偏离了真正的构念。
  • 定位:它是 0412 专题手里”评测有效性”的测量学武器——把”benchmark 该不该信”从口水仗,升级为”它有没有论证过 construct validity”的可追责提问。

关联节点

  • Goodhart 定律 — 互补的另一把刀:构念效度问”一开始测得对不对”,Goodhart 问”指标一旦成为优化目标后如何被腐蚀”。
  • c14 - 模型评估体系与 Goodhart 陷阱 — 模型评估体系总论,构念效度是其”为什么单一 benchmark 不可信”的测量学根据。
  • A06 Goodhart 与指标失效 — 0412 专题判断主轴;与本卡构成”测量层失效(效度)+ 治理层失效(Goodhart)“的双视角。
  • Cohen Kappa 系数 — 信度侧的量化工具;与效度同属信度-效度框架,注意”高信度可掩盖低效度”。