每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

当判断变成噪音:法学硕士评判基准的设计缺陷如何悄然损害效度

Created by
  • Haebom

作者

本杰明·费尔、曾琼一、Astitwa Sarthak Lathe、Oussama Elachqar、约翰·P·迪克森

大纲

虽然基于法学硕士 (LLM) 的基准测试被广泛用于评估复杂模型行为,但它们会引入传统正确响应基准测试中不存在的故障模式。本文认为,如果没有严格的客观性和可验证的构造,基准排名可能会产生高度可靠的排名,但这些排名实际上充满了噪声。作者提出了两种机制来诊断这个问题。图式遵从度量化了评估者的整体判断在多大程度上由其明确的评估图式解释,揭示了评估者偏离其自身标准时无法解释的方差。心理测量效度通过聚合内部一致性和判别效度信号来量化基准测试练习中不可约的不确定性。将这些工具应用于 Arena-Hard Auto,作者发现广泛使用的评估器存在显著的图式不一致和因子崩溃现象。例如,DeepSeek-R1-32B 表现出超过 90% 的无法解释的方差,并且大多数标准的因子相关性都大于 0.93。他们还表明,ELO 式聚合会导致崩溃,并掩盖真正的排名不确定性。这些结果突出了损害有效性的设计缺陷,并为构建具有更好覆盖范围的可靠性感知的基于 LLM 的基准提供了可行的原则。

Takeaways, Limitations

我们强调了基于 LLM 的基准的设计问题:由于严格的目标和缺乏可验证的结构,它们的排名可能会很嘈杂。
建议一种诊断机制:使用模式合规性和心理测量有效性来评估基准的可靠性。
Arena-Hard Auto 分析:发现严重的模式不一致和因子崩溃,并指出 ELO 样式聚合的问题。
改进方向:提出构建具有更好范围和可靠性的基于 LLM 的基准的原则。
Limitations:专注于特定基准(Arena-Hard Auto)的分析。
👍