Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

AI-SearchPlanner: Búsqueda agenética modular mediante aprendizaje de refuerzo multiobjetivo óptimo de Pareto

Created by
  • Haebom

Autor

Lang Mei, Zhihan Yang, Chong Chen

Describir

Este artículo analiza la investigación que integra modelos lingüísticos a gran escala (LLM) con motores de búsqueda, aprovechando el conocimiento interno preentrenado de los LLM y la información externa. Específicamente, el aprendizaje por refuerzo (RL) se presenta como un paradigma prometedor para mejorar la inferencia de los LLM mediante interacciones multi-turno con el motor de búsqueda. Los agentes de búsqueda basados ​​en RL existentes dependen de un único LLM para gestionar tanto la planificación de la búsqueda como las tareas de respuesta a preguntas (QA), lo que limita su capacidad para optimizar simultáneamente ambas funciones. Considerando los sofisticados sistemas de búsqueda de IA que utilizan LLM grandes y fijos (p. ej., GPT-4, DeepSeek-R1) para garantizar un QA de alta calidad, este artículo propone un enfoque más efectivo y eficiente que aprovecha un LLM pequeño y entrenable dedicado a la planificación de la búsqueda. Presentamos un novedoso marco de aprendizaje por refuerzo, AI-SearchPlanner, diseñado para mejorar el rendimiento de los modelos de QA fijos centrándose en la planificación de la búsqueda. Este objetivo se logra mediante tres innovaciones clave: (1) separación de las arquitecturas del planificador y el generador de búsquedas, (2) ordenación dual de recompensas para la planificación de búsquedas, y (3) optimización de Pareto de la utilidad y el coste del plan. Mediante experimentos exhaustivos con conjuntos de datos reales, demostramos que AI-SearchPlanner supera a los agentes de búsqueda basados ​​en aprendizaje automático (RL) existentes en eficacia y eficiencia, y presenta sólidas capacidades de generalización en diversos modelos de control de calidad (QA) y dominios de datos fijos.

Takeaways, Limitations

Takeaways:
Demostramos que la eficiencia y eficacia de los agentes de búsqueda basados ​​en RL se pueden mejorar al enfocar el plan de búsqueda utilizando un modelo de control de calidad fijo y de alta calidad.
Se lograron mejoras de rendimiento mediante técnicas novedosas, como la separación de la arquitectura del generador y del planificador de búsqueda, la clasificación doblemente compensatoria y la optimización de Pareto.
Exhibe un sólido desempeño de generalización en varios modelos de control de calidad fijos y dominios de datos.
Limitations:
El rendimiento del marco propuesto puede depender de la calidad del modelo de control de calidad fijo utilizado.
Los experimentos están limitados a un conjunto de datos específico y se necesita una mayor validación del rendimiento de generalización en otros conjuntos de datos.
Tal vez se necesiten más investigaciones sobre la configuración de parámetros para la optimización de Pareto.
👍