Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CodeJudgeBench : analyse comparative des compétences LLM en tant que juge pour les tâches de codage

Created by
  • Haebom

Auteur

Hongchao Jiang, Yiming Chen, Yushi Cao, Hung-yi Lee, Robby T. Tan

Contour

Cet article présente CodeJudgeBench, un nouveau benchmark utilisant des modèles de langage à grande échelle (LLM) comme évaluateurs de code (LLM-as-a-Judge). CodeJudgeBench est conçu pour évaluer les performances des modèles LLM-as-a-Judge sur trois tâches de codage : la génération, la modification et la génération de tests unitaires. Après une analyse comparative exhaustive de 26 modèles LLM-as-a-Judge, nous constatons que les modèles de pointe dotés de capacités de raisonnement surpassent largement les modèles non raisonnés. Même des modèles de raisonnement relativement petits, comme Qwen3-8B, ont surpassé jusqu'à 70 % les modèles LLM-as-a-Judge spécialement entraînés, jusqu'à 70 B. Cependant, tous les modèles présentaient un caractère aléatoire significatif lors de l'évaluation des tâches de codage, et dans les tâches de comparaison par paires, même la modification de l'ordre de présentation des réponses affectait significativement la précision. De plus, nous avons observé que les performances des modèles LLM-as-a-Judge variaient lors de l'évaluation du code et des tests unitaires écrits par différents LLM. Cette sensibilité soulève des inquiétudes quant à la fiabilité et à la cohérence de LLM-as-a-Judge dans les scénarios de codage. Enfin, nous avons étudié la stratégie d'incitation optimale pour LLM-as-a-Judge, constatant que les comparaisons par paires surpassaient les jugements à score unique, et que la conservation des commentaires et des inférences de la réponse LLM complète, non traitée, améliorait les performances de jugement.

Takeaways, Limitations

Takeaways:
CodeJudgeBench fournit une référence standard pour évaluer les performances des modèles LLM-as-a-Judge.
Les LLM dotés de compétences en pensée critique obtiennent de meilleurs résultats dans les tâches d’évaluation de code.
Même les modèles relativement petits peuvent surpasser les plus grands.
Nous avons constaté qu’une stratégie d’incitation comprenant des comparaisons par paires et des informations d’annotation et d’inférence était efficace.
Limitations:
Tous les modèles LLM-as-a-Judge présentent encore un caractère aléatoire important.
L’ordre dans lequel les réponses sont présentées peut affecter de manière significative les résultats du jugement.
Il existe un manque de cohérence dans les résultats d’évaluation du code généré par différents LLM.
Des inquiétudes sont soulevées quant à la fiabilité et à la cohérence du LLM-as-a-Judge.
👍