Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Más allá de diez turnos: Desbloqueo de la búsqueda agente de largo plazo con aprendizaje automático asincrónico a gran escala

Created by
  • Haebom

Autor

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

Describir

Este artículo presenta ASearcher, un proyecto de código abierto para mejorar las capacidades de búsqueda de agentes basados ​​en modelos de lenguaje a gran escala (LLM). Los agentes LLM existentes dependen en gran medida de herramientas externas, en particular de herramientas de búsqueda, para gestionar tareas complejas. Sin embargo, no logran la inteligencia de búsqueda de nivel experto (p. ej., resolver preguntas ambiguas, generar respuestas precisas, analizar resultados y realizar una exploración exhaustiva). Para superar estas limitaciones, ASearcher presenta un marco de entrenamiento escalable y eficiente basado en aprendizaje de refuerzo asíncrono (RL). El agente LLM genera su propio conjunto de datos de preguntas y respuestas (QA) de alta calidad y puede realizar búsquedas a largo plazo (más de 40 turnos, con más de 15 000 tokens de salida). Los resultados experimentales demuestran que supera a los agentes 32 000 millones de código abierto existentes en los benchmarks xBench y GAIA. El modelo, los datos de entrenamiento y el código están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo enfoque para mejorar las capacidades de búsqueda de agentes basados ​​en modelos de lenguaje a gran escala.
Desarrollo de un marco de entrenamiento basado en aprendizaje de refuerzo asincrónico escalable y eficiente.
Mejore el rendimiento generando usted mismo conjuntos de datos de control de calidad de alta calidad.
Demostrar la viabilidad de aprender estrategias de búsqueda complejas a largo plazo.
Logra un rendimiento superior en comparación con los agentes de código abierto existentes.
Promover el intercambio y el desarrollo de la investigación mediante la divulgación de código abierto.
Limitations:
Las mejoras de rendimiento de ASearcher pueden estar limitadas a puntos de referencia específicos (xBench, GAIA).
La verificación del rendimiento de generalización es necesaria para diversas tareas de búsqueda del mundo real.
Se necesita un análisis más profundo de la calidad y el sesgo de los datos de entrenamiento.
Se necesita investigación sobre la explicabilidad y confiabilidad de los agentes.
👍