Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Thinkless : LLM apprend quand réfléchir

Created by
  • Haebom

Auteur

Gongfan Fang, Xinyin Ma, Xinchao Wang

Contour

Dans cet article, nous proposons un framework Thinkless, qui utilise sélectivement des réponses concises pour les problèmes simples et des inférences longues pour les problèmes complexes, afin de résoudre le problème d'efficacité de calcul du Modèle de Langage de Raisonnement (RLM), lequel affiche d'excellentes performances sur les tâches nécessitant des inférences complexes. Thinkless est entraîné par apprentissage par renforcement et utilise deux jetons de contrôle, l'un pour les réponses concises et l'autre pour les inférences détaillées. L'algorithme principal, DeGRPO (Decoupled Group Relative Policy Optimization), sépare la perte de jetons de contrôle et la perte de réponse afin de stabiliser l'entraînement et d'améliorer les performances. Les résultats expérimentaux montrent que l'efficacité est améliorée en réduisant l'utilisation des inférences longues de 50 % à 90 % sur des benchmarks tels que Minerva Algebra, MATH-500 et GSM8K.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre qui peut améliorer considérablement l’efficacité de calcul du RLM.
Réduisez le temps de réponse et la consommation de ressources en réduisant l’utilisation excessive d’inférences longues.
Obtenir un apprentissage stable et une amélioration des performances grâce à l'apprentissage par renforcement et à l'optimisation découplée.
Validé sur une variété de critères de référence en matière de problèmes mathématiques et de raisonnement.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du cadre proposé.
L’applicabilité et l’évaluation des performances pour différents types de problèmes sont requises.
Une analyse de la complexité et du coût de calcul de l’algorithme DeGRPO est nécessaire.
Surajustement potentiel à certains benchmarks.
👍