Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mind2Web 2: Evaluación de la búsqueda agéntica con el agente como juez

Created by
  • Haebom

Autor

Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jimenez Guti errez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su

Describir

Este artículo aborda cómo la recuperación basada en agentes, como los sistemas de investigación profunda donde los agentes exploran la web de forma autónoma, sintetizan información y proporcionan respuestas completas y basadas en citas, representa un cambio importante en la forma en que los usuarios interactúan con la información a escala web. Los puntos de referencia y las metodologías de evaluación existentes se quedan atrás de la creciente complejidad y apertura de la recuperación basada en agentes, ya que asumen periodos de búsqueda cortos y respuestas estáticas. En respuesta, presentamos el punto de referencia Mind2Web 2, que consta de 130 tareas realistas, de alta calidad y a largo plazo que requieren recuperación web en tiempo real y una síntesis exhaustiva de información, creadas a lo largo de 1000 horas de trabajo. Para abordar la tarea de evaluar respuestas complejas y variables en el tiempo, proponemos un novedoso marco de "Agente como Juez" basado en un diseño de rúbrica con estructura de árbol que construye agentes de juicio específicos para cada tarea para evaluar automáticamente la precisión y la atribución de la fuente de las respuestas. Realizamos una evaluación exhaustiva de 10 sistemas de recuperación de datos basados ​​en agentes de última generación y un análisis detallado de errores para obtener información útil para futuros desarrollos. El sistema de mayor rendimiento, OpenAI Deep Research, demuestra su potencial al alcanzar entre el 50 % y el 70 % del rendimiento humano en la mitad del tiempo empleado. Mind2Web 2 proporciona una base rigurosa para el desarrollo y la evaluación comparativa de sistemas de búsqueda basados ​​en agentes de última generación.

Takeaways, Limitations

Takeaways:
Presentamos Mind2Web 2, un nuevo punto de referencia para tareas a largo plazo que requieren búsqueda web y agregación de información en tiempo real
Proponer un marco de agente como juez para evaluar respuestas complejas y que varían en el tiempo
Sugerir futuras direcciones de desarrollo a través de la evaluación del rendimiento y el análisis de errores de sistemas de búsqueda basados ​​en agentes de vanguardia, incluida OpenAI Deep Research
Confirmando el potencial de los sistemas de búsqueda basados ​​en agentes (OpenAI Deep Research logra entre el 50 y el 70 % del rendimiento humano en la mitad del tiempo)
Limitations:
Se necesita más investigación sobre la escala y diversidad del índice de referencia Mind2Web 2.
Se necesitan más investigaciones sobre la generalización y las limitaciones del marco del Agente-como-Juez.
Límites en el tipo y número de sistemas de búsqueda basados ​​en agentes evaluados
Se necesitan consideraciones adicionales para realizar comparaciones con el desempeño humano (por ejemplo, el sesgo potencial de los evaluadores humanos).
👍