[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉTablir les meilleures pratiques pour créer des benchmarks agentiques rigoureux

Created by
  • Haebom

Auteur

Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpre, Kevin Meng, Rebecca Weiss, Fazl Barez, Rahul Gupta, Jwala Dhamala, Jacob Merizian, Mario Giulianelli, Harry Coppock, Cozmin Ududec, Jasjeet Sekhon, Jacob Steinhardt, Antony Kellerman, Sarah Schwettmann, Matei Zaharia, Ion Stoica, Percy Liang, Daniel Kang

Contour

Cet article met en évidence les problèmes des benchmarks existants pour évaluer les performances des agents d'IA et propose une nouvelle ligne directrice, la liste de contrôle des benchmarks agentiques (ABC), pour les résoudre. Il montre que les benchmarks existants peuvent sous-estimer ou surestimer les performances des agents en raison de problèmes de définition des tâches ou de conception des récompenses. Par exemple, SWE-bench Verified ne contient pas de cas de test, et TAU-bench considère les réponses vides comme réussies. ABC est créé en synthétisant les expériences de construction de benchmarks, les enquêtes sur les meilleures pratiques et les problèmes précédemment signalés. Il est appliqué à CVE-Bench, dont la conception d'évaluation est complexe, et montre une réduction de 33 % de la surestimation des performances.

Takeaways, Limitations

Takeaways: Fournit des lignes directrices systématiques (ABC) pour améliorer la fiabilité des benchmarks des agents d'IA, ce qui peut améliorer la précision de l'évaluation des performances des agents d'IA. Cela peut aider à identifier et à améliorer les problèmes de conception et d'évaluation des benchmarks existants.
Limitations : Une validation supplémentaire est nécessaire pour déterminer si l'ABC s'applique à tous les types de benchmarks d'agents. L'application de l'ABC peut complexifier l'élaboration des benchmarks. Tous les éléments de l'ABC n'ont pas forcément la même importance pour tous les benchmarks.
👍