Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

JudgeLRM : Grands modèles de raisonnement en tant que juge

Created by
  • Haebom

Auteur

Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

Contour

Cet article explore l'utilisation de modèles de langage à grande échelle (MLH) comme évaluateurs. Les approches de réglage fin supervisé (SFT) existantes présentent des limites pour les tâches nécessitant une inférence complexe. Cet article examine si les évaluateurs LLM bénéficient considérablement d'une amélioration des performances d'inférence. Nos résultats révèlent une corrélation négative entre l'amélioration des performances SFT et la proportion d'échantillons présentant des exigences d'inférence élevées. Pour surmonter cette limite, nous proposons JudgeLRM, un nouveau LLM basé sur l'apprentissage par renforcement (RL) qui utilise des récompenses pilotées par le juge. JudgeLRM surpasse les modèles basés sur SFT et les modèles d'inférence de pointe, en particulier pour les tâches de jugement nécessitant une inférence approfondie. JudgeLRM-3B surpasse GPT-4 de 2,79 % en score F1, et JudgeLRM-7B surpasse DeepSeek-R1 de 2,79 %.

Takeaways, Limitations

Takeaways:
Nous proposons JudgeLRM, une nouvelle approche qui utilise LLM comme évaluateur, pour surmonter les limites de la méthode SFT existante.
Grâce à l’apprentissage par renforcement, nous avons obtenu des améliorations dans la capacité d’inférence et les performances d’évaluation du LLM.
JudgeLRM surpasse les modèles les plus performants existants sur les tâches d'évaluation nécessitant un raisonnement complexe.
Nous suggérons la possibilité d’augmenter l’évolutivité et l’efficacité des systèmes d’évaluation basés sur le LLM.
Limitations:
Il est possible que les améliorations de performances de JudgeLRM soient limitées à des ensembles de données ou à des tâches spécifiques.
La complexité et le coût informatique des processus d’apprentissage basés sur l’apprentissage par renforcement peuvent être élevés.
Des recherches supplémentaires sont nécessaires sur la transparence et l’explicabilité des critères de jugement du JudgeLRM.
La vérification des performances de généralisation dans divers domaines et tâches d’évaluation est requise.
👍