[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

QuestA : Développer la capacité de raisonnement dans les LLM grâce à l'augmentation des questions

Created by
  • Haebom

Auteur

Jiazheng Li, Hong Lu, Kaiyue Wen, Zaiwen Yang, Jiaxuan Gao, Hongzhou Lin, Yi Wu, Jingzhao Zhang

Contour

Dans cet article, nous soulignons les limites de l'apprentissage par renforcement traditionnel pour améliorer la capacité d'inférence multi-niveaux des modèles d'inférence de langage à grande échelle (LLM) grâce à l'apprentissage par renforcement (RL). Nous proposons une nouvelle méthode, l'augmentation des questions (QuestA), pour résoudre ces limites. QuestA réduit la difficulté du problème en ajoutant des solutions partielles lors de l'apprentissage par renforcement, fournissant ainsi des signaux d'entraînement plus informatifs. Lorsque QuestA est appliqué lors de l'apprentissage par renforcement pour des tâches d'inférence mathématique, les performances Pass@1 et Pass@k sont améliorées, en particulier pour les problèmes où l'apprentissage par renforcement traditionnel présente des difficultés. En améliorant encore la capacité d'inférence de puissants modèles open source tels que DeepScaleR et OpenMath Nemotron, nous obtenons de nouveaux résultats de pointe (respectivement 67,1 %, 59,5 % et 35,5 %) sur les benchmarks AIME24, AIME25 et HMMT25. De plus, nous fournissons une explication théorique expliquant pourquoi QuestA améliore l'efficacité de l'échantillonnage, suggérant une méthode pratique et généralisable pour étendre la capacité d'inférence via RL.

Takeaways, Limitations

Takeaways:
Présentation d'une stratégie efficace d'augmentation des questions (QuestA) pour améliorer les performances d'inférence multi-niveaux du LLM basé sur l'apprentissage par renforcement.
Surmonter les limites du RL existant et contribuer à améliorer les performances, en particulier pour les problèmes difficiles.
Obtenez de nouvelles performances de pointe sur les benchmarks AIME24, AIME25 et HMMT25.
Présenter la possibilité d’un apprentissage efficace grâce à une efficacité d’échantillonnage améliorée.
Fournir une méthode pratique et généralisable pour étendre la capacité d'inférence des LLM basés sur RL.
Limitations:
Des expériences et analyses complémentaires sont nécessaires pour déterminer la généralisabilité de la méthode proposée. (Le texte mentionne la généralisabilité, mais aucune limitation spécifique n'est fournie.)
L’applicabilité et l’évaluation des performances pour d’autres types de problèmes d’inférence sont nécessaires.
Manque d'analyse détaillée du réglage et de l'optimisation des paramètres dans QuestA.
👍