[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

BEARCUBS : une référence pour les agents Web utilisant des ordinateurs

Created by
  • Haebom

Auteur

Yixiao Song, Katherine Thai, Chau Minh Pham, Yapei Chang, Mazin Nadaf, Mohit Iyyer

Contour

Dans cet article, nous présentons BEARCUBS, un nouveau benchmark permettant d'évaluer la capacité de recherche d'information des agents web dans des environnements web réels. BEARCUBS se compose de 111 questions de recherche d'information et, contrairement aux benchmarks existants, nécessite de vraies pages web et diverses interactions intermodales (par exemple, compréhension vidéo, navigation 3D). Les résultats des expériences humaines montrent que la difficulté des questions est appropriée (précision de 84,7 %), tandis que les agents web de pointe affichent une faible précision (jusqu'à 23,4 %). Cela souligne l'importance de sélectionner des sources d'information fiables et de solides capacités multimodales. BEARCUBS continuera d'être mis à jour pour contribuer à la recherche sur les agents web.

Takeaways, Limitations_

Takeaways:
Présentation d'un nouveau benchmark BEARCUBS pour évaluer les performances des agents Web dans des environnements Web réels
Surmonter les limites des repères existants et souligner la nécessité d'une interaction entre les différentes modalités
Identifier les causes des mauvaises performances des agents Web de pointe et suggérer des moyens de les améliorer (sélection de sources fiables, fortes capacités multimodales)
Fournit des repères continus pour la recherche d'agents Web
Limitations:
Le nombre de questions dans le référentiel actuel (111) peut être relativement faible.
BEARCUBS nécessite des mises à jour et une maintenance continues.
La pertinence des repères doit être continuellement revue à mesure que l’environnement Web évolue.
👍