En este artículo, presentamos BEARCUBS, un nuevo punto de referencia para evaluar la capacidad de búsqueda de información de agentes web en entornos web reales. BEARCUBS consta de 111 preguntas de búsqueda de información y, a diferencia de los puntos de referencia existentes, requiere páginas web reales y diversas interacciones intermodales (p. ej., comprensión de video, navegación 3D). Los resultados de experimentos con humanos muestran que la dificultad de las preguntas es adecuada (84,7 % de precisión), mientras que los agentes web de vanguardia muestran una precisión baja (hasta un 23,4 %). Esto enfatiza la importancia de seleccionar fuentes de información fiables y sólidas capacidades multimodales. BEARCUBS se actualizará continuamente para contribuir a la investigación de agentes web.