Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Au-delà de dix tours : Débloquer la recherche agentique à long terme avec le RL asynchrone à grande échelle

Created by
  • Haebom

Auteur

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

Contour

Cet article présente ASearcher, un projet open source visant à améliorer les capacités de recherche des agents basés sur des modèles de langage à grande échelle (LLM). Si les agents LLM existants excellent dans la gestion de tâches complexes et gourmandes en connaissances, ils ne parviennent pas à fournir une intelligence de recherche de niveau expert (par exemple, résoudre des questions ambiguës, générer des recherches précises, analyser les résultats et explorer en profondeur). Pour surmonter ces limitations, ASearcher propose un cadre d'apprentissage par renforcement asynchrone, évolutif et efficace. Plus précisément, ASearcher surpasse les agents open source existants sur les benchmarks xBench et GAIA grâce à un apprentissage par renforcement asynchrone (RL) évolutif qui permet une recherche à long terme et à un agent LLM basé sur des invites qui génère automatiquement un jeu de données de questions-réponses (QA) de haute qualité. Il démontre également des capacités de recherche à long terme exceptionnelles, avec des appels d'outils dépassant 40 tours et des sorties dépassant 150 000 jetons. Le modèle, les données d'apprentissage et le code sont accessibles au public.

Takeaways, Limitations

Takeaways:
Un cadre de formation d'agent LLM basé sur l'apprentissage par renforcement asynchrone évolutif et efficace est présenté.
Génération automatique d'ensembles de données d'assurance qualité de haute qualité à l'aide d'agents LLM basés sur des invites
Améliorations des performances dans les benchmarks xBench et GAIA par rapport aux agents open source existants (basés sur Avg@4)
Mise en œuvre de capacités de recherche à long terme extrêmes (appels d'outils de 40 tours ou plus, sortie de 150 000 jetons ou plus)
Contribue à la recherche et au développement en étant publié en open source
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthodologie présentée dans cet article.
Nécessité d'évaluations de performance supplémentaires dans divers domaines et tâches
Il convient de prendre en compte les questions de sécurité et d’éthique des agents.
👍