Pour pallier les limites des modèles linguistiques à grande échelle (LLM), qui ont tendance à générer des hallucinations ou des réponses obsolètes en raison de connaissances internes statiques, cet article propose une méthode de génération augmentée de récupération (RAG) basée sur l'apprentissage par renforcement (RL) pour améliorer les capacités de récupération et d'inférence du modèle. Pour pallier les limites des méthodes RAG existantes, notamment l'instabilité de l'apprentissage, le temps d'inférence important et les fonctionnalités limitées dues au mode requête unique, nous présentons RAG-R1, un nouveau cadre d'apprentissage conçu pour permettre aux LLM d'utiliser de manière adaptative les connaissances internes et externes pendant le processus d'inférence. RAG-R1 étend les processus de génération et de récupération du mode requête unique au traitement parallèle multi-requêtes, réduisant ainsi le temps d'inférence et améliorant les fonctionnalités du modèle. Des expériences approfondies sur sept benchmarks de questions-réponses démontrent que la méthode proposée surpasse le modèle de référence le plus performant jusqu'à 13,2 % et réduit le temps d'inférence de 11,1 %.