Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AI-SearchPlanner : Recherche agentique modulaire via l'apprentissage par renforcement multi-objectifs Pareto-Optimal

Created by
  • Haebom

Auteur

Lang Mei, Zhihan Yang, Chong Chen

Contour

Cet article présente des recherches intégrant des modèles linguistiques à grande échelle (MLH) aux moteurs de recherche, en exploitant les connaissances internes pré-entraînées et les informations externes de ces modèles. Plus précisément, l'apprentissage par renforcement (RL) est présenté comme un paradigme prometteur pour améliorer l'inférence des LLM grâce à des interactions multi-tours avec le moteur de recherche. Les agents de recherche actuels basés sur l'RL s'appuient sur un seul LLM pour gérer à la fois la planification de la recherche et les tâches de réponse aux questions (QA), ce qui limite leur capacité à optimiser simultanément ces deux fonctions. Compte tenu des systèmes de recherche IA sophistiqués qui utilisent de grands LLM fixes (par exemple, GPT-4, DeepSeek-R1) pour garantir une QA de haute qualité, cet article propose une approche plus efficace et efficiente qui s'appuie sur un petit LLM entraînable dédié à la planification de la recherche. Nous présentons un nouveau cadre d'apprentissage par renforcement, AI-SearchPlanner, conçu pour améliorer les performances des modèles QA fixes en se concentrant sur la planification de la recherche. Cet objectif est atteint grâce à trois innovations clés : (1) la séparation des architectures du planificateur et du générateur de recherche, (2) le tri à double récompense pour la planification de la recherche et (3) l'optimisation de Pareto de l'utilité et du coût du plan. Grâce à des expériences approfondies sur des ensembles de données réels, nous démontrons qu'AI-SearchPlanner surpasse les agents de recherche basés sur l'apprentissage par renforcement existants en termes d'efficacité et d'efficience, et présente de solides capacités de généralisation sur une variété de modèles d'assurance qualité et de domaines de données fixes.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’efficacité et l’efficience des agents de recherche basés sur RL peuvent être améliorées en concentrant le plan de recherche à l’aide d’un modèle d’assurance qualité fixe et de haute qualité.
Des améliorations de performances ont été obtenues grâce à de nouvelles techniques telles que la séparation de l'architecture du planificateur de recherche et du générateur, le tri à double compensation et l'optimisation de Pareto.
Il présente de fortes performances de généralisation sur divers modèles d'assurance qualité fixes et domaines de données.
Limitations:
La performance du cadre proposé peut dépendre de la qualité du modèle d’assurance qualité fixe utilisé.
Les expériences sont limitées à un ensemble de données spécifique et une validation supplémentaire des performances de généralisation sur d’autres ensembles de données est nécessaire.
Des recherches supplémentaires peuvent être nécessaires sur les paramètres de réglage pour l’optimisation de Pareto.
👍