Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AgentGym-RL : Formation des agents LLM à la prise de décision à long terme grâce à l'apprentissage par renforcement multi-tours

Created by
  • Haebom

Auteur

Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

Contour

AgentGym-RL est un nouveau framework d'apprentissage par renforcement permettant de former des agents LLM autonomes de A à Z. Ces agents sont capables de prendre une série de décisions intelligentes pour résoudre des problèmes complexes du monde réel dans divers environnements, sans ajustements d'apprentissage supervisé. Son architecture modulaire et découplée englobe une variété de scénarios réels et prend en charge les principaux algorithmes d'apprentissage par renforcement. Nous proposons une méthode d'apprentissage ScalingInter-RL conçue pour équilibrer exploration et exploitation et obtenir une optimisation robuste de l'apprentissage par renforcement. Nous nous concentrons initialement sur l'exploitation en limitant le nombre d'interactions, puis nous évoluons progressivement vers une exploration plus large afin d'encourager diverses stratégies de résolution de problèmes. Nous présentons des résultats expérimentaux démontrant que les agents s'entraînent à des performances égales, voire supérieures, à celles des modèles commerciaux sur 27 tâches dans divers environnements. Nous prévoyons de rendre open source l'intégralité du framework AgentGym-RL, y compris le code et les jeux de données.

Takeaways, Limitations

Takeaways:
Nous présentons un cadre pour la formation d'agents LLM autonomes capables de résoudre des problèmes complexes du monde réel dans des environnements divers sans affiner l'apprentissage supervisé.
L'architecture modulaire offre flexibilité et évolutivité.
Une méthode de formation ScalingInter-RL qui prend en compte l'équilibre exploration-exploitation est proposée pour promouvoir une optimisation stable de l'apprentissage par renforcement et diverses stratégies de résolution de problèmes.
Performances validées équivalentes ou supérieures aux modèles commerciaux sur 27 tâches diverses
Contribuer au développement de la communauté de recherche grâce à la publication open source du framework AgentGym-RL.
Limitations:
Cet article ne présente que les premiers résultats, et des recherches supplémentaires sont nécessaires sur la stabilité et l’évolutivité à long terme.
Bien qu'il prenne en charge divers environnements, les performances de généralisation à tous les environnements du monde réel nécessitent une vérification supplémentaire.
Des recherches supplémentaires sont nécessaires sur les paramètres optimaux et la généralisabilité de ScalingInter-RL.
👍