En este artículo, presentamos un método de Generación Aumentada por Recuperación (RAG) que mejora las capacidades de recuperación e inferencia de un modelo mediante aprendizaje por refuerzo (RL). Este método aborda las limitaciones de los modelos de lenguaje a gran escala (LLM), que tienden a generar respuestas alucinatorias o desactualizadas debido al conocimiento interno estático. Para abordar los problemas de estabilidad del entrenamiento, el tiempo de inferencia significativo y la funcionalidad limitada debido al modo de consulta única de los métodos RAG existentes, proponemos un nuevo marco de entrenamiento, denominado RAG-R1. RAG-R1 está diseñado para permitir que los LLM utilicen de forma adaptativa el conocimiento interno y externo durante el proceso de inferencia y extiende el proceso de generación y recuperación del modo de consulta única al procesamiento paralelo de múltiples consultas, reduciendo así el tiempo de inferencia y mejorando la funcionalidad del modelo. Experimentos exhaustivos en siete pruebas de referencia de preguntas y respuestas demuestran que el método propuesto supera a los modelos de referencia de mejor rendimiento en hasta un 13,2 %, a la vez que reduce el tiempo de inferencia en un 11,1 %.