Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Au-delà de dix tours : Débloquer la recherche agentique à long terme avec le RL asynchrone à grande échelle

Created by
  • Haebom

Auteur

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

Contour

Cet article présente ASearcher, un projet open source visant à améliorer les capacités de recherche des agents basés sur des modèles de langage à grande échelle (LLM). Les agents LLM existants s'appuient fortement sur des outils externes, notamment des outils de recherche, pour gérer des tâches complexes. Cependant, ils ne parviennent pas à atteindre une intelligence de recherche de niveau expert (par exemple, résoudre des questions ambiguës, générer des réponses précises, analyser les résultats et réaliser une exploration approfondie). Pour surmonter ces limitations, ASearcher propose un cadre d'apprentissage par renforcement (RL) asynchrone, évolutif et efficace. L'agent LLM génère son propre jeu de données questions-réponses (QA) de haute qualité et peut effectuer des recherches à long terme (plus de 40 tours, avec plus de 15 000 jetons de sortie). Les résultats expérimentaux démontrent qu'il surpasse les agents 32B open source existants sur les benchmarks xBench et GAIA. Le modèle, les données d'apprentissage et le code sont accessibles au public.

Takeaways, Limitations

Takeaways:
Une nouvelle approche visant à améliorer les capacités de recherche des agents basés sur des modèles de langage à grande échelle est présentée.
Développement d'un cadre de formation basé sur l'apprentissage par renforcement asynchrone, évolutif et efficace.
Améliorez vos performances en générant vous-même des ensembles de données d'assurance qualité de haute qualité.
Démontrer la faisabilité de l’apprentissage de stratégies de recherche complexes à long terme.
Atteint des performances supérieures par rapport aux agents open source existants.
Promouvoir le partage et le développement de la recherche grâce à la divulgation de sources ouvertes.
Limitations:
Les améliorations des performances d'ASearcher peuvent être limitées à des benchmarks spécifiques (xBench, GAIA).
La vérification des performances de généralisation est nécessaire pour diverses tâches de recherche dans le monde réel.
Une analyse plus approfondie de la qualité et du biais des données de formation est nécessaire.
Des recherches sont nécessaires sur l’explicabilité et la fiabilité des agents.
👍