Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Recherche-R1 : Former les LLM à raisonner et à exploiter les moteurs de recherche grâce à l'apprentissage par renforcement

Created by
  • Haebom

Auteur

Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han

Contour

Cet article présente le framework Search-R1, qui exploite l'apprentissage par renforcement (RL) pour permettre à un modèle de langage à grande échelle (LLM) de générer des requêtes de recherche et d'utiliser les résultats de recherche pour l'inférence pendant le processus d'inférence grâce à une récupération en temps réel. Search-R1 optimise le chemin d'inférence LLM grâce à des interactions de récupération multi-tours et utilise une technique de masquage des jetons de résultats de recherche et une fonction de récompense simple basée sur les résultats pour un apprentissage RL stable. Les résultats expérimentaux sur sept jeux de données de questions-réponses démontrent que Search-R1 surpasse la technique RAG existante de 41 % sur le modèle Qwen2.5-7B et de 20 % sur le modèle Qwen2.5-3B. De plus, nous fournissons des informations expérimentales sur les méthodes d'optimisation RL, la sélection LLM et la dynamique de la longueur des résultats de recherche. Le code et les points de contrôle du modèle sont accessibles au public.

Takeaways, Limitations_

Takeaways:
Une nouvelle méthodologie est présentée pour améliorer la capacité de recherche du LLM en utilisant l'apprentissage par renforcement.
Nous démontrons un apprentissage RL robuste et des améliorations de performances grâce à des interactions multi-récupérations et au masquage de jetons.
La généralisabilité est vérifiée par des résultats expérimentaux sur divers LLM et ensembles de données.
Soutien à la reproductibilité et au suivi des recherches grâce au code ouvert et à la divulgation des modèles.
Limitations:
Les résultats expérimentaux sont limités à un LLM et à un ensemble de données spécifiques. Des expériences supplémentaires portant sur un éventail plus large de LLM et d'ensembles de données sont nécessaires.
Dégradation potentielle des performances due à la simplicité de la fonction de récompense basée sur les résultats. Une conception plus sophistiquée de la fonction de récompense est nécessaire.
Dépendance aux caractéristiques des moteurs de recherche. Il est nécessaire de comparer les applications et les performances des différents moteurs de recherche.
👍