Cet article présente CodeJudgeBench, un nouveau benchmark utilisant des modèles de langage à grande échelle (LLM) comme évaluateurs de code (LLM-as-a-Judge). CodeJudgeBench est conçu pour évaluer les performances des modèles LLM-as-a-Judge sur trois tâches de codage : la génération, la modification et la génération de tests unitaires. Après une analyse comparative exhaustive de 26 modèles LLM-as-a-Judge, nous constatons que les modèles de pointe dotés de capacités de raisonnement surpassent largement les modèles non raisonnés. Même des modèles de raisonnement relativement petits, comme Qwen3-8B, ont surpassé jusqu'à 70 % les modèles LLM-as-a-Judge spécialement entraînés, jusqu'à 70 B. Cependant, tous les modèles présentaient un caractère aléatoire significatif lors de l'évaluation des tâches de codage, et dans les tâches de comparaison par paires, même la modification de l'ordre de présentation des réponses affectait significativement la précision. De plus, nous avons observé que les performances des modèles LLM-as-a-Judge variaient lors de l'évaluation du code et des tests unitaires écrits par différents LLM. Cette sensibilité soulève des inquiétudes quant à la fiabilité et à la cohérence de LLM-as-a-Judge dans les scénarios de codage. Enfin, nous avons étudié la stratégie d'incitation optimale pour LLM-as-a-Judge, constatant que les comparaisons par paires surpassaient les jugements à score unique, et que la conservation des commentaires et des inférences de la réponse LLM complète, non traitée, améliorait les performances de jugement.