虽然基于法学硕士 (LLM) 的基准测试被广泛用于评估复杂模型行为,但它们会引入传统正确响应基准测试中不存在的故障模式。本文认为,如果没有严格的客观性和可验证的构造,基准排名可能会产生高度可靠的排名,但这些排名实际上充满了噪声。作者提出了两种机制来诊断这个问题。图式遵从度量化了评估者的整体判断在多大程度上由其明确的评估图式解释,揭示了评估者偏离其自身标准时无法解释的方差。心理测量效度通过聚合内部一致性和判别效度信号来量化基准测试练习中不可约的不确定性。将这些工具应用于 Arena-Hard Auto,作者发现广泛使用的评估器存在显著的图式不一致和因子崩溃现象。例如,DeepSeek-R1-32B 表现出超过 90% 的无法解释的方差,并且大多数标准的因子相关性都大于 0.93。他们还表明,ELO 式聚合会导致崩溃,并掩盖真正的排名不确定性。这些结果突出了损害有效性的设计缺陷,并为构建具有更好覆盖范围的可靠性感知的基于 LLM 的基准提供了可行的原则。