Este artículo presenta CodeJudgeBench, un novedoso benchmark que utiliza modelos de lenguaje a gran escala (LLM) como evaluadores de código (LLM como juez). CodeJudgeBench está diseñado para evaluar el rendimiento de los modelos LLM como juez en tres tareas de codificación: generación de código, modificación de código y generación de pruebas unitarias. Tras realizar una evaluación comparativa exhaustiva de 26 modelos LLM como juez, observamos que los modelos de vanguardia con capacidades de razonamiento superan significativamente a los modelos sin razonamiento. Incluso modelos de razonamiento relativamente pequeños, como Qwen3-8B, superaron en hasta un 70 % a los modelos LLM como juez especialmente entrenados con tamaños de hasta 70B. Sin embargo, todos los modelos mostraron una aleatoriedad significativa al evaluar las tareas de codificación, y en las tareas de comparación por pares, incluso cambiar el orden de presentación de las respuestas afectó significativamente la precisión. Además, observamos que el rendimiento de los modelos LLM como juez variaba al evaluar código y pruebas unitarias escritas por diferentes LLM. Esta sensibilidad plantea dudas sobre la fiabilidad y la consistencia de LLM como juez en escenarios de codificación. Finalmente, estudiamos la estrategia óptima de incitación para LLM como juez, y descubrimos que las comparaciones por pares superaron a los juicios de puntuación única, y que retener comentarios e inferencias de la respuesta LLM completa y sin procesar mejoró el rendimiento del juicio.