Este artículo propone un método para adquirir conocimiento externo e información actualizada con el fin de mejorar la eficiencia de la inferencia y la generación de texto de modelos de lenguaje a gran escala (LLM). Para superar las limitaciones del motor de búsqueda existente, presentamos el marco Search-R1 basado en aprendizaje por refuerzo (RL). En Search-R1, el LLM genera de forma autónoma múltiples consultas de búsqueda durante el proceso de inferencia paso a paso y optimiza dicho proceso utilizando los resultados de la búsqueda. Realiza un aprendizaje de RL estable mediante la técnica de enmascaramiento de tokens y una función de recompensa simple basada en resultados. Los resultados experimentales en siete conjuntos de datos de preguntas y respuestas muestran que Search-R1 mejora el rendimiento en un 41 % en el modelo Qwen2.5-7B y en un 20 % en el modelo Qwen2.5-3B, en comparación con la técnica RAG existente. Además, presentamos los resultados del análisis experimental sobre el método de optimización de RL, la selección de LLM y la dinámica de la longitud de los resultados de búsqueda. El código y los puntos de control del modelo están disponibles públicamente en GitHub.