Para abordar las limitaciones de los modelos de lenguaje a gran escala (LLM), que tienden a generar alucinaciones o respuestas obsoletas debido al conocimiento interno estático, este artículo propone un método de Generación Aumentada por Recuperación (RAG) basado en aprendizaje por refuerzo (RL) para mejorar las capacidades de recuperación e inferencia del modelo. Para abordar las limitaciones de los métodos RAG existentes, incluyendo la inestabilidad del entrenamiento, el tiempo de inferencia significativo y la funcionalidad limitada debido al modo de consulta única, presentamos RAG-R1, un novedoso marco de entrenamiento diseñado para permitir que los LLM utilicen de forma adaptativa el conocimiento interno y externo durante el proceso de inferencia. RAG-R1 extiende los procesos de generación y recuperación del modo de consulta única al procesamiento paralelo de múltiples consultas, reduciendo el tiempo de inferencia y mejorando la funcionalidad del modelo. Experimentos exhaustivos en siete puntos de referencia de preguntas y respuestas demuestran que el método propuesto supera al modelo base de mejor rendimiento en hasta un 13,2 % y reduce el tiempo de inferencia en un 11,1 %.