Este artículo analiza la investigación que integra modelos lingüísticos a gran escala (LLM) con motores de búsqueda, aprovechando el conocimiento interno preentrenado de los LLM y la información externa. Específicamente, el aprendizaje por refuerzo (RL) se presenta como un paradigma prometedor para mejorar la inferencia de los LLM mediante interacciones multi-turno con el motor de búsqueda. Los agentes de búsqueda basados en RL existentes dependen de un único LLM para gestionar tanto la planificación de la búsqueda como las tareas de respuesta a preguntas (QA), lo que limita su capacidad para optimizar simultáneamente ambas funciones. Considerando los sofisticados sistemas de búsqueda de IA que utilizan LLM grandes y fijos (p. ej., GPT-4, DeepSeek-R1) para garantizar un QA de alta calidad, este artículo propone un enfoque más efectivo y eficiente que aprovecha un LLM pequeño y entrenable dedicado a la planificación de la búsqueda. Presentamos un novedoso marco de aprendizaje por refuerzo, AI-SearchPlanner, diseñado para mejorar el rendimiento de los modelos de QA fijos centrándose en la planificación de la búsqueda. Este objetivo se logra mediante tres innovaciones clave: (1) separación de las arquitecturas del planificador y el generador de búsquedas, (2) ordenación dual de recompensas para la planificación de búsquedas, y (3) optimización de Pareto de la utilidad y el coste del plan. Mediante experimentos exhaustivos con conjuntos de datos reales, demostramos que AI-SearchPlanner supera a los agentes de búsqueda basados en aprendizaje automático (RL) existentes en eficacia y eficiencia, y presenta sólidas capacidades de generalización en diversos modelos de control de calidad (QA) y dominios de datos fijos.