Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EFRame : Raisonnement approfondi via un cadre d'apprentissage par renforcement par exploration-filtrage-relecture

Created by
  • Haebom

Auteur

Chen Wang, Lai Wei, Yanzhi Zhang, Chenyang Shao, Zedong Dan, Weiran Huang, Yue Wang, Yuzhi Zhang

Contour

Dans cet article, nous présentons le framework EFRame, qui améliore l'optimisation de politique relative de groupe (GRPO), un algorithme efficace d'apprentissage par renforcement. Il permet de résoudre les problèmes d'exploration limitée, de faible efficacité des échantillons et d'instabilité qui entravent les performances des tâches d'inférence complexes. EFRame intègre systématiquement trois éléments clés : l'exploration, le filtrage et la relecture d'expérience pour une exploration de trajectoire de haute qualité, la suppression des échantillons de faible qualité et l'utilisation itérative d'échantillons rares mais informatifs. Cela crée un cycle d'apprentissage stable et structure le processus de transition de l'exploration à la convergence, améliorant ainsi la capacité d'inférence du modèle. Grâce à diverses expériences de benchmarking d'inférence, nous démontrons qu'EFRame améliore non seulement la robustesse et l'efficacité de l'apprentissage, mais offre également des capacités d'inférence approfondies impossibles à atteindre avec le GRPO conventionnel. De plus, il fournit des informations approfondies sur la contribution de chaque échantillon grâce à une classification fine des échantillons d'apprentissage, et fournit un mécanisme de contrôle d'entropie efficace et précis, essentiel pour équilibrer exploration et convergence.

Takeaways, Limitations

Takeaways:
Nous présentons le cadre EFRame qui répond efficacement à l'exploration limitée, à la faible efficacité d'échantillonnage et à l'instabilité des GRPO Limitations.
Obtenir des capacités d'inférence plus approfondies avec EFRame.
Améliorer la robustesse et l’efficacité de l’apprentissage.
Fournit des informations plus approfondies grâce à une classification granulaire des échantillons de formation.
Fournit un mécanisme de contrôle d'entropie efficace et précis.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation d’EFRame présentées dans cet article.
D’autres expériences sont nécessaires pour étudier l’applicabilité et les limites d’EFRame à différents types de problèmes d’inférence.
Une analyse plus approfondie du coût de calcul et de l’utilisation de la mémoire d’EFRame est nécessaire.
👍