Cet article présente des recherches intégrant des modèles linguistiques à grande échelle (MLH) aux moteurs de recherche, en exploitant les connaissances internes pré-entraînées et les informations externes de ces modèles. Plus précisément, l'apprentissage par renforcement (RL) est présenté comme un paradigme prometteur pour améliorer l'inférence des LLM grâce à des interactions multi-tours avec le moteur de recherche. Les agents de recherche actuels basés sur l'RL s'appuient sur un seul LLM pour gérer à la fois la planification de la recherche et les tâches de réponse aux questions (QA), ce qui limite leur capacité à optimiser simultanément ces deux fonctions. Compte tenu des systèmes de recherche IA sophistiqués qui utilisent de grands LLM fixes (par exemple, GPT-4, DeepSeek-R1) pour garantir une QA de haute qualité, cet article propose une approche plus efficace et efficiente qui s'appuie sur un petit LLM entraînable dédié à la planification de la recherche. Nous présentons un nouveau cadre d'apprentissage par renforcement, AI-SearchPlanner, conçu pour améliorer les performances des modèles QA fixes en se concentrant sur la planification de la recherche. Cet objectif est atteint grâce à trois innovations clés : (1) la séparation des architectures du planificateur et du générateur de recherche, (2) le tri à double récompense pour la planification de la recherche et (3) l'optimisation de Pareto de l'utilité et du coût du plan. Grâce à des expériences approfondies sur des ensembles de données réels, nous démontrons qu'AI-SearchPlanner surpasse les agents de recherche basés sur l'apprentissage par renforcement existants en termes d'efficacité et d'efficience, et présente de solides capacités de généralisation sur une variété de modèles d'assurance qualité et de domaines de données fixes.