Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cuando el juicio se vuelve ruido: cómo los fallos de diseño en los criterios de evaluación de los jueces de LLM minan silenciosamente la validez

Created by
  • Haebom

Autor

Benjamin Feuer, Chiung-Yi Tseng, Torno Astitwa Sarthak, Oussama Elachqar, John P Dickerson

Describir

Si bien los benchmarks basados ​​en LLM se utilizan ampliamente para evaluar el comportamiento de modelos complejos, introducen modos de fallo que no están presentes en los benchmarks tradicionales de respuesta correcta. Este artículo argumenta que, sin un objetivo riguroso y constructos verificables, las clasificaciones de benchmarks pueden generar clasificaciones altamente fiables que, en efecto, resultan ruidosas. Los autores proponen dos mecanismos para diagnosticar este problema. La conformidad con el esquema cuantifica hasta qué punto el veredicto general de un evaluador se explica por su esquema de evaluación explícito, revelando varianza inexplicable cuando los evaluadores se desvían de sus propias rúbricas. La validez psicométrica cuantifica la incertidumbre irreducible de un ejercicio de benchmarking mediante la agregación de señales de consistencia interna y validez discriminante. Al aplicar estas herramientas a Arena-Hard Auto, los autores encontraron una inconsistencia significativa del esquema y un colapso factorial en evaluadores ampliamente utilizados. Por ejemplo, DeepSeek-R1-32B presentó más del 90 % de varianza inexplicable y correlaciones factoriales superiores a 0,93 para la mayoría de los criterios. También demuestran que la agregación de estilo ELO colapsa y oculta la verdadera incertidumbre de la clasificación. Estos resultados resaltan fallas de diseño que comprometen la validez y brindan principios prácticos para construir puntos de referencia basados ​​en LLM que tengan en cuenta la confiabilidad y tengan una mejor cobertura.

Takeaways, Limitations

Destacamos los problemas de diseño con los puntos de referencia basados ​​en LLM: sus clasificaciones pueden ser ruidosas debido a objetivos estrictos y la falta de construcciones verificables.
Sugerir un mecanismo de diagnóstico: evaluar la confiabilidad del punto de referencia utilizando el cumplimiento del esquema y la validez psicométrica.
Análisis de Arena-Hard Auto: detección de graves inconsistencias en el esquema y colapso de factores, y detección de problemas con la agregación estilo ELO.
Direcciones de mejora: Proponer principios para construir puntos de referencia basados ​​en LLM con mejor alcance y confiabilidad.
Limitations: Se centra en el análisis de un punto de referencia específico (Arena-Hard Auto).
👍