Dans cet article, nous présentons BEARCUBS, un nouveau benchmark permettant d'évaluer la capacité de recherche d'information des agents web dans des environnements web réels. BEARCUBS se compose de 111 questions de recherche d'information et, contrairement aux benchmarks existants, nécessite de vraies pages web et diverses interactions intermodales (par exemple, compréhension vidéo, navigation 3D). Les résultats des expériences humaines montrent que la difficulté des questions est appropriée (précision de 84,7 %), tandis que les agents web de pointe affichent une faible précision (jusqu'à 23,4 %). Cela souligne l'importance de sélectionner des sources d'information fiables et de solides capacités multimodales. BEARCUBS continuera d'être mis à jour pour contribuer à la recherche sur les agents web.