Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

WebArXiv : Évaluation d'agents multimodaux sur des tâches arXiv invariantes dans le temps

Created by
  • Haebom

Auteur

Zihao Sun, Ling Chen

Contour

Afin de relever les défis de l'évaluation des agents web autonomes basés sur des modèles de langage à grande échelle (LLM), cet article présente WebArXiv, un benchmark statique et invariant dans le temps, basé sur la plateforme arXiv. WebArXiv garantit des évaluations reproductibles et fiables grâce à des instantanés web fixes, une vérité terrain déterministe et des chemins d'action standardisés. Nous identifions un mode de défaillance courant, la « réflexion historique rigide », où les agents s'appuient excessivement sur leur historique d'interactions passées, et proposons un mécanisme de réflexion dynamique léger qui récupère sélectivement les étapes passées pertinentes lors de la prise de décision. Nous évaluons dix agents web de pointe sur WebArXiv afin de démontrer les différences de performances inter-agents et de valider l'efficacité de notre stratégie de réflexion proposée.

Takeaways, Limitations

Takeaways:
Nous présentons WebArXiv, un benchmark d'agent Web statique et invariant dans le temps basé sur arXiv, permettant une évaluation reproductible et fiable.
Nous identifions la « réflexion d'histoire rigide », un mode de défaillance courant des agents Web, et proposons un mécanisme de réflexion dynamique léger et efficace pour y remédier.
Démontre clairement les différences de performances entre les agents Web de pointe.
Limitations:
ÉTant donné que WebArXiv est limité à la plateforme arXiv, il peut ne pas refléter la diversité des autres sites Web.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du mécanisme de réflexion dynamique proposé.
Les types d’agents Web utilisés dans l’évaluation peuvent être limités.
👍