Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Briser le goulot d'étranglement de l'exploration : Apprentissage par renforcement basé sur des rubriques pour le raisonnement général du LLM

Created by
  • Haebom

Auteur

Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song

Contour

Cet article présente une méthode permettant d'exploiter l'apprentissage par renforcement (RL) pour améliorer la capacité d'inférence des modèles linguistiques à grande échelle (LLM). L'apprentissage par renforcement actuel basé sur l'RL repose sur des échantillons de haute qualité, mais les limites inhérentes aux LLM limitent l'exploration de ces échantillons. Pour y remédier, cet article propose un nouveau cadre : l'apprentissage par renforcement basé sur des grilles (RuscaRL). RuscaRL utilise des grilles de type listes de contrôle pour induire des réponses diversifiées et de haute qualité lors de la phase de génération du déploiement et fournit des récompenses fiables basées sur les grilles lors de la phase d'apprentissage du modèle. Ainsi, RuscaRL surpasse les méthodes existantes sur divers benchmarks. Il améliore notamment les performances de Qwen2.5-7B-Instruct de 23,6 à 50,3 sur HealthBench-500, et de Qwen3-30B-A3B-Instruct à 61,1, surpassant ainsi GPT-4.1 et OpenAI-o3.

Takeaways, Limitations

Takeaways:
Nous démontrons que la capacité de raisonnement des LLM peut être efficacement améliorée grâce à un cadre d’apprentissage par renforcement (RuscaRL) utilisant une rubrique de type liste de contrôle.
A obtenu des performances de pointe sur divers benchmarks, surpassant notamment GPT-4.1 sur HealthBench-500.
Les stratégies d’exploration et de récompense basées sur des rubriques présentent une méthodologie efficace pour améliorer la capacité de raisonnement des LLM.
Limitations:
La recherche est actuellement en cours et le code, le modèle et l’ensemble de données seront publiés à une date ultérieure.
La qualité de la conception des grilles d'évaluation peut avoir un impact significatif sur les performances. Il manque des descriptions et des directives détaillées pour leur conception.
Manque d’évaluation des performances de généralisation pour divers types de problèmes d’inférence.
👍