Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Repenser la qualité du raisonnement dans les grands modèles linguistiques grâce à une chaîne de pensée améliorée via RL

Created by
  • Haebom

Auteur

Haoyang He, Zihua Rong, Kun Ji, Chenyang Li, Qing Huang, Chong Xia, Lan Yang, Honggang Zhang

Contour

Cet article aborde les limites de l'apprentissage par renforcement (RL) pour améliorer les performances d'inférence des modèles linguistiques à grande échelle (LLM) et propose un nouveau système de récompense, la récompense d'efficacité du raisonnement dynamique (DRER). Les fonctions de récompense existantes basées sur des règles évaluent uniquement la forme et l'exactitude des réponses, sans refléter les améliorations qualitatives du CoT (Council of Thinking). Pour résoudre ce problème, DRER conçoit des signaux de récompense et d'avantage qui prennent en compte la qualité et la durée du processus de raisonnement. Plus précisément, il offre des récompenses fines pour les processus de raisonnement qui augmentent la probabilité d'obtenir des réponses correctes et réduisent l'avantage des réponses qui s'écartent de la longueur optimale, stabilisant ainsi l'apprentissage. De plus, nous publions Logictree, un jeu de données de raisonnement déductif construit dynamiquement, pouvant servir à la fois de données d'entraînement RL et de référence complète. Les résultats expérimentaux montrent que DRER atteint des performances de niveau GPT-o3-mini sur Logictree avec seulement 400 itérations d'entraînement avec un modèle 7B, améliorant ainsi le niveau de confiance moyen des réponses basées sur le CoT de 30 %. Il démontre également les performances de généralisation sur divers ensembles de données de raisonnement logique et sur le benchmark mathématique AIME24.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau système de récompense, DRER, qui surmonte les limites des méthodes existantes d'amélioration de l'inférence LLM basées sur RL.
Concevoir un mécanisme de récompense qui induit directement une amélioration qualitative dans le processus d’inférence.
Un nouvel ensemble de données de raisonnement déductif à grande échelle appelé Logictree est publié.
Amélioration des performances élevées et performances de généralisation confirmées malgré de petites étapes de formation.
Présentation de méthodes pratiques pour améliorer les compétences de raisonnement formel chez les étudiants en LLM.
Limitations:
Les performances du DRER peuvent dépendre d’ensembles de données et de tailles de modèles spécifiques.
Une validation supplémentaire de la généralité et de la représentativité de l’ensemble de données Logictree est nécessaire.
La nécessité de vérifier les performances de généralisation de DRER pour des problèmes d'inférence plus complexes et plus divers.
👍