Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CodeJudgeBench: Evaluación comparativa de LLM como juez para tareas de codificación

Created by
  • Haebom

Autor

Hongchao Jiang, Yiming Chen, Yushi Cao, Hung-yi Lee, Robby T. Tan

Describir

Este artículo presenta CodeJudgeBench, un novedoso benchmark que utiliza modelos de lenguaje a gran escala (LLM) como evaluadores de código (LLM como juez). CodeJudgeBench está diseñado para evaluar el rendimiento de los modelos LLM como juez en tres tareas de codificación: generación de código, modificación de código y generación de pruebas unitarias. Tras realizar una evaluación comparativa exhaustiva de 26 modelos LLM como juez, observamos que los modelos de vanguardia con capacidades de razonamiento superan significativamente a los modelos sin razonamiento. Incluso modelos de razonamiento relativamente pequeños, como Qwen3-8B, superaron en hasta un 70 % a los modelos LLM como juez especialmente entrenados con tamaños de hasta 70B. Sin embargo, todos los modelos mostraron una aleatoriedad significativa al evaluar las tareas de codificación, y en las tareas de comparación por pares, incluso cambiar el orden de presentación de las respuestas afectó significativamente la precisión. Además, observamos que el rendimiento de los modelos LLM como juez variaba al evaluar código y pruebas unitarias escritas por diferentes LLM. Esta sensibilidad plantea dudas sobre la fiabilidad y la consistencia de LLM como juez en escenarios de codificación. Finalmente, estudiamos la estrategia óptima de incitación para LLM como juez, y descubrimos que las comparaciones por pares superaron a los juicios de puntuación única, y que retener comentarios e inferencias de la respuesta LLM completa y sin procesar mejoró el rendimiento del juicio.

Takeaways, Limitations

Takeaways:
CodeJudgeBench proporciona un punto de referencia estándar para evaluar el rendimiento de los modelos LLM como juez.
Los LLM con habilidades de pensamiento crítico se desempeñan mejor en tareas de evaluación de código.
Incluso los modelos relativamente pequeños pueden superar a los más grandes.
Descubrimos que una estrategia de estímulo que incluía comparaciones por pares y anotaciones e información de inferencia fue eficaz.
Limitations:
Todos los modelos LLM-as-a-Judge aún muestran una aleatoriedad significativa.
El orden en que se presentan las respuestas puede afectar significativamente los resultados del juicio.
Existe una falta de consistencia en los resultados de la evaluación del código generado por diferentes LLM.
Se plantean preocupaciones sobre la fiabilidad y la consistencia del Máster en Derecho como Juez.
👍