Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimisation des stratégies de groupe dans le groupe pour la formation des agents LLM

Created by
  • Haebom

Auteur

Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An

Contour

Cet article propose l'optimisation des politiques de groupe (GiGPO), un nouvel algorithme qui répond aux défis d'évolutivité de l'apprentissage à long terme et à grande échelle des agents de modèles de langage (LLM) grâce à l'apprentissage par renforcement (RL) basé sur les groupes. Tout en conservant les avantages de l'apprentissage par renforcement basé sur les groupes existant (sans évaluateur, faible empreinte mémoire et convergence stable), il permet une attribution fine des crédits par étape grâce à une structure hiérarchique qui calcule les avantages relatifs aux niveaux épisode et étape. Au niveau épisode, l'avantage relatif macroscopique est calculé à partir de groupes de trajectoires achevées, tandis qu'au niveau étape, l'avantage relatif microscopique est estimé en introduisant un mécanisme de regroupement par état d'ancrage qui identifie les états environnementaux récurrents et construit inversement des groupes par étape. Les évaluations sur les benchmarks ALFWorld et WebShop utilisant Qwen2.5-1.5B-Instruct et Qwen2.5-7B-Instruct démontrent des gains de performance de plus de 12 % sur ALFWorld et de plus de 9 % sur WebShop par rapport aux références GRPO existantes. Cette approche maintient la même surcharge de mémoire GPU et le même déploiement LLM, avec peu ou pas de surcharge de temps supplémentaire.

Takeaways, Limitations

Takeaways:
Nous présentons GiGPO, un nouvel algorithme RL efficace qui résout le problème d'évolutivité de la formation des agents LLM à long terme.
Il permet une allocation de crédit précise et progressive tout en conservant les avantages du RL basé sur les groupes existants.
Amélioration des performances vérifiée expérimentalement par rapport aux algorithmes existants dans les benchmarks ALFWorld et WebShop.
Obtenez des améliorations de performances sans consommation de mémoire ni de temps supplémentaire.
Limitations:
Les performances de l’algorithme proposé peuvent être limitées à des LLM et des benchmarks spécifiques.
Une analyse comparative plus approfondie avec d’autres algorithmes RL est nécessaire.
Des recherches supplémentaires sont nécessaires sur la généralité du mécanisme de regroupement des états d’ancrage et son applicabilité à divers environnements.
L’évaluation des performances est nécessaire dans des environnements complexes ou sur des horizons temporels plus longs.
👍