Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RAG-R1 : Stimuler les capacités de recherche et de raisonnement des LLM grâce au parallélisme multi-requêtes

Created by
  • Haebom

Auteur

Zhiwen Tan, Jiaming Huang, Qintong Wu, Hongxuan Zhang, Chenyi Zhuang, Jinjie Gu

Contour

Dans cet article, nous présentons une méthode de génération augmentée de récupération (RAG) qui améliore les capacités de récupération et d'inférence d'un modèle par apprentissage par renforcement (RL). Cette méthode vise à pallier les limites des modèles de langage à grande échelle (LLM), qui ont tendance à générer des réponses hallucinatoires ou obsolètes en raison de connaissances internes statiques. Pour remédier aux problèmes de stabilité de l'apprentissage, aux temps d'inférence importants et aux fonctionnalités limitées dues au mode requête unique des méthodes RAG existantes, nous proposons un nouveau cadre d'apprentissage, appelé RAG-R1. Ce cadre permet aux LLM d'utiliser de manière adaptative les connaissances internes et externes pendant le processus d'inférence, et étend le processus de génération et de récupération du mode requête unique au traitement parallèle multi-requêtes, réduisant ainsi le temps d'inférence et améliorant les fonctionnalités du modèle. Des expériences approfondies sur sept benchmarks de questions-réponses démontrent que la méthode proposée surpasse les modèles de référence les plus performants jusqu'à 13,2 %, tout en réduisant le temps d'inférence de 11,1 %.

Takeaways, Limitations

Takeaways:
Suggérant la possibilité de réduire le temps d'inférence et d'améliorer les performances du LLM basé sur RAG
Présentation d'une méthode efficace d'utilisation des connaissances grâce au traitement parallèle multi-requêtes
Amélioration des performances et réduction du temps d'inférence vérifiées expérimentalement par rapport au modèle le plus performant existant dans sept benchmarks de type questions-réponses
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une évaluation de la robustesse pour différents types de questions est nécessaire
Il est nécessaire de revoir la généralisabilité des résultats expérimentaux limités à des repères spécifiques.
👍