BEARCUBS es un benchmark compuesto por 111 preguntas para evaluar la capacidad de exploración de información de agentes web en entornos web reales. A diferencia de los benchmarks existentes, utiliza páginas web reales y requiere diversos modos de interacción (p. ej., comprensión de video, navegación 3D). Cada pregunta tiene una respuesta concisa y una ruta de navegación verificada por humanos, lo que permite una evaluación transparente. Estudios realizados con humanos demuestran que las preguntas tienen solución, pero son difíciles (84,7 % de precisión), y que la falta de conocimiento y la omisión de detalles son las principales causas de fallo. El agente ChatGPT alcanzó una precisión del 65,8 %, significativamente superior a la de otros agentes, pero el rendimiento a nivel humano requiere un control preciso, un filtrado de datos complejo y una mayor velocidad de ejecución. BEARCUBS se mantendrá mediante actualizaciones periódicas.