Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SFR-DeepResearch : Vers un apprentissage par renforcement efficace pour les agents uniques au raisonnement autonome

Created by
  • Haebom

Auteur

Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty

Contour

Cet article vise à réaliser une recherche approfondie (RA) à l'aide d'un modèle mono-agent autonome. Contrairement aux systèmes multi-agents existants, nous proposons un modèle dans lequel un agent unique détermine dynamiquement sa prochaine action en fonction de la situation, minimisant ainsi l'exploration web et l'intégration d'outils Python. Au lieu d'utiliser des LLM pré-entraînés ou dirigés conventionnels, nous proposons une méthode pour améliorer les performances des agents en appliquant l'apprentissage par renforcement continu (RL) à un modèle optimisé par inférence. Nous avons mené des expériences en appliquant une recette RL simple utilisant des données entièrement synthétiques à divers LLM open source, et le modèle SFR-DR-20B a obtenu des performances allant jusqu'à 28,7 % au benchmark Humanity's Last Exam.

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour mener des recherches sur l’apprentissage profond basé sur un agent unique est présentée.
Augmentez l’efficacité en minimisant l’exploration Web et l’intégration des outils.
Améliorer les capacités de raisonnement grâce à l'apprentissage par renforcement continu.
Proposer une recette d'apprentissage RL basée sur des données synthétiques.
Des gains de performance significatifs ont été obtenus lors du benchmark Last Exam de Humanity.
Limitations:
Dégradation potentielle des performances dans les environnements de données réels en raison d'une formation utilisant uniquement des données synthétiques.
Manque d'évaluation des performances sur des critères de référence autres que le critère du dernier examen de l'humanité.
Une analyse plus approfondie de la capacité de généralisation et de l’évolutivité du modèle est nécessaire.
Une validation supplémentaire des capacités de résolution de problèmes complexes des modèles à agent unique est nécessaire.
👍