Este artículo propone AutoRefine, un novedoso marco basado en aprendizaje por refuerzo para mejorar el rendimiento de la inferencia de modelos lingüísticos a gran escala (LLM). Para abordar el problema de los métodos de inferencia aumentados por búsqueda existentes que recuperan información irrelevante o con ruido, AutoRefine introduce un paradigma de "búsqueda y refinamiento durante el pensamiento", que realiza procesos iterativos de búsqueda y refinamiento. Esto permite al modelo filtrar, extraer y organizar la evidencia de forma iterativa antes de generar una respuesta. Además, optimiza las políticas relativas a grupos aprovechando las recompensas específicas de la búsqueda y la precisión de la respuesta. Los resultados experimentales en pruebas de referencia de preguntas y respuestas de un solo salto y de múltiples saltos demuestran que AutoRefine supera significativamente a los métodos existentes, especialmente en escenarios complejos de inferencia de múltiples saltos. Un análisis detallado demuestra que AutoRefine realiza búsquedas frecuentes y de alta calidad, y sintetiza la evidencia eficazmente.