Si bien los benchmarks basados en LLM se utilizan ampliamente para evaluar el comportamiento de modelos complejos, introducen modos de fallo que no están presentes en los benchmarks tradicionales de respuesta correcta. Este artículo argumenta que, sin un objetivo riguroso y constructos verificables, las clasificaciones de benchmarks pueden generar clasificaciones altamente fiables que, en efecto, resultan ruidosas. Los autores proponen dos mecanismos para diagnosticar este problema. La conformidad con el esquema cuantifica hasta qué punto el veredicto general de un evaluador se explica por su esquema de evaluación explícito, revelando varianza inexplicable cuando los evaluadores se desvían de sus propias rúbricas. La validez psicométrica cuantifica la incertidumbre irreducible de un ejercicio de benchmarking mediante la agregación de señales de consistencia interna y validez discriminante. Al aplicar estas herramientas a Arena-Hard Auto, los autores encontraron una inconsistencia significativa del esquema y un colapso factorial en evaluadores ampliamente utilizados. Por ejemplo, DeepSeek-R1-32B presentó más del 90 % de varianza inexplicable y correlaciones factoriales superiores a 0,93 para la mayoría de los criterios. También demuestran que la agregación de estilo ELO colapsa y oculta la verdadera incertidumbre de la clasificación. Estos resultados resaltan fallas de diseño que comprometen la validez y brindan principios prácticos para construir puntos de referencia basados en LLM que tengan en cuenta la confiabilidad y tengan una mejor cobertura.