Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ThinkTuning : instiller des réflexions cognitives sans distillation

Created by
  • Haebom

Auteur

Aswin RRV, Jacob Dineen, Divij Handa, Md Nayem Uddin, Mihir Parmar, Chitta Baral, Ben Zhou

Contour

S'appuyant sur des recherches antérieures démontrant que l'apprentissage par renforcement (RL) ne permet pas à lui seul de créer des modèles de langage à grande échelle (LLM) dotés de capacités de raisonnement, cet article propose ThinkTuning, une nouvelle méthode d'entraînement de modèles dépourvus de capacités de raisonnement. ThinkTuning est une approche d'apprentissage interactif basée sur GRPO qui optimise le déploiement d'un modèle d'élève guidé par un modèle d'enseignant. Le modèle d'enseignant présente les problèmes et fournit des commentaires correctifs sur les réponses du modèle d'élève, améliorant ainsi sa capacité de raisonnement. Les résultats expérimentaux montrent que ThinkTuning améliore les performances de 3,85 % en moyenne par rapport à la base de référence zéro-shot sur divers tests, et de 2,08 %, 2,23 % et 3,99 % respectivement sur MATH-500, AIME et GPQA-Diamond. Le code source est disponible sur GitHub.

Takeaways, Limitations_

Takeaways:
Suggérer la possibilité d'améliorer la capacité de raisonnement du LLM grâce à une méthode d'apprentissage interactive basée sur l'interaction du modèle enseignant-étudiant.
Combiner les retours du GRPO et les modèles d’enseignants pour suggérer une manière efficace d’acquérir des compétences de réflexion.
Démontrer expérimentalement que la capacité de réflexion peut être améliorée même chez les modèles ayant une capacité de réflexion limitée.
A démontré des améliorations de performance dans divers benchmarks, démontrant ainsi une efficacité pratique.
Limitations:
Il est possible que les performances d’apprentissage soient grandement affectées par la qualité du modèle de l’enseignant.
Il est possible que l’efficacité de la méthode proposée soit limitée à certains types de problèmes ou de modèles.
Une évaluation des performances pour des problèmes plus divers et plus complexes est nécessaire.
Il faut tenir compte du coût de calcul et du temps de formation.
👍