Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

BEARCUBS: Un referente para agentes web que utilizan ordenadores

Created by
  • Haebom

Autor

Yixiao Song, Katherine Thai, Chau Minh Pham, Yapei Chang, Mazin Nadaf, Mohit Iyyer

Describir

BEARCUBS es un benchmark compuesto por 111 preguntas para evaluar la capacidad de exploración de información de agentes web en entornos web reales. A diferencia de los benchmarks existentes, utiliza páginas web reales y requiere diversos modos de interacción (p. ej., comprensión de video, navegación 3D). Cada pregunta tiene una respuesta concisa y una ruta de navegación verificada por humanos, lo que permite una evaluación transparente. Estudios realizados con humanos demuestran que las preguntas tienen solución, pero son difíciles (84,7 % de precisión), y que la falta de conocimiento y la omisión de detalles son las principales causas de fallo. El agente ChatGPT alcanzó una precisión del 65,8 %, significativamente superior a la de otros agentes, pero el rendimiento a nivel humano requiere un control preciso, un filtrado de datos complejo y una mayor velocidad de ejecución. BEARCUBS se mantendrá mediante actualizaciones periódicas.

Takeaways, Limitations

Takeaways:
Presentamos BEARCUBS, un nuevo punto de referencia para evaluar el rendimiento de los agentes web en entornos web del mundo real.
Comparación de capacidades y estado de varios agentes web, incluido ChatGPT Agent.
Sugiere direcciones futuras para los agentes web (control preciso, filtrado de datos complejos, velocidad de ejecución mejorada).
Presentar la posibilidad de análisis comparativo de estrategias de búsqueda de información web humana y estrategias de agentes.
Limitations:
El número de preguntas de referencia es relativamente pequeño (111).
Es necesario profundizar en la dificultad y diversidad de los tipos de preguntas.
Se necesita más investigación para cerrar la brecha con el desempeño a nivel humano.
La necesidad de mantener la adaptabilidad del benchmark a los cambios continuos en el entorno web.
👍