Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EFRame : Raisonnement approfondi via un cadre d'apprentissage par renforcement par exploration-filtrage-relecture

Created by
  • Haebom

Auteur

Chen Wang, Lai Wei, Yanzhi Zhang, Chenyang Shao, Zedong Dan, Weiran Huang, Yue Wang, Yuzhi Zhang

Contour

Dans cet article, nous présentons le framework EFRame pour améliorer les performances de l'algorithme d'optimisation de politique relative de groupe (GRPO), qui souffre d'une exploration limitée, d'une faible efficacité d'échantillonnage et d'une instabilité dans les tâches d'inférence complexes. EFRame améliore systématiquement GRPO en introduisant des déploiements supplémentaires pour explorer les trajectoires de haute qualité, un filtrage en ligne pour éliminer les échantillons de faible qualité générateurs de bruit et de variance, et une reproductibilité empirique pour utiliser de manière répétée des échantillons rares mais informatifs. Grâce à diverses expériences de référence d'inférence, nous démontrons qu'EFRame améliore non seulement la robustesse et l'efficacité de l'apprentissage, mais offre également des capacités d'inférence plus approfondies, impossibles avec le GRPO conventionnel. De plus, EFRame permet une classification plus fine des échantillons d'apprentissage, ce qui permet une analyse plus approfondie de la contribution des différents types d'échantillons au processus d'apprentissage par renforcement.

Takeaways, Limitations

Takeaways:
Nous présentons le cadre EFRame qui répond efficacement aux problèmes d'exploration limitée, de faible efficacité d'échantillonnage et d'instabilité du GRPO Limitations.
Obtenez une formation par renforcement plus robuste et plus efficace et des capacités d'inférence plus approfondies avec EFRame.
Analyse approfondie du processus d’apprentissage par renforcement grâce à une classification fine des échantillons d’entraînement.
Augmentez la reproductibilité et la convivialité en rendant votre code public via GitHub.
Limitations:
Les types et la portée des tests de référence présentés dans cet article peuvent être limités. Des expériences supplémentaires sur différents types de tâches d'inférence pourraient être nécessaires.
Il est possible que les gains de performances d'EFRame soient biaisés en faveur de certains types de tâches d'inférence ou d'ensembles de données.
Une analyse détaillée du coût de calcul et de l'utilisation de la mémoire d'EFRame peut faire défaut.
👍