Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MOTIF : Pensée modulaire via le renforcement et le perfectionnement dans les LLM

Created by
  • Haebom

Auteur

Purbesh Mitra, Sennur Ulukus

Contour

Dans cet article, nous proposons une nouvelle méthode d'apprentissage par renforcement, la pensée modulaire via le réglage fin du renforcement (MOTIF), pour améliorer la capacité d'inférence des modèles de langage à grande échelle (LLM). L'algorithme GRPO (Group Relative Policy Optimization) existant améliore la qualité des réponses en augmentant le nombre de jetons d'inférence, mais il est limité par la taille limitée du contexte des LLM. MOTIF tente de surmonter cette limitation grâce à une stratégie de pensée modulaire qui génère des jetons d'inférence sur plusieurs cycles. En entraînant le modèle Qwen2.5-3B-Instruct sur le jeu de données GSM8K grâce à un réglage fin efficace des paramètres, nous montrons qu'il améliore la précision de 3,8 % et 3,3 % sur les benchmarks MATH500 et AIME2024, respectivement, par rapport à l'apprentissage basé sur GRPO existant, qui est obtenu en utilisant seulement 15 % des échantillons, démontrant ainsi l'efficacité des échantillons. Le code et les modèles sont en libre accès.

Takeaways, Limitations

Takeaways:
Nous présentons une stratégie de réflexion modulaire efficace pour surmonter les limitations de taille du contexte du LLM.
Il montre une précision et une efficacité d’échantillonnage améliorées par rapport à l’apprentissage basé sur GRPO.
Fournit reproductibilité et extensibilité grâce à du code et des modèles ouverts.
Limitations:
ÉTant donné que les évaluations de performance n’ont été effectuées que sur des ensembles de données spécifiques (GSM8K, MATH500, AIME2024), des études supplémentaires sur la généralisabilité sont nécessaires.
Une analyse plus approfondie de l’efficacité et de l’applicabilité des stratégies de pensée modulaire est nécessaire.
Il existe un manque d’analyse comparative des performances pour différentes architectures et tailles de LLM.
👍