Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉTablir les meilleures pratiques pour créer des benchmarks agentiques rigoureux

Created by
  • Haebom

Auteur

Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpre, Kevin Meng, Rebecca Weiss, Fazl Barez, Rahul Gupta, Jwala Dhamala, Jacob Merizian, Mario Giulianelli, Harry Coppock, Cozmin Ududec, Jasjeet Sekhon, Jacob Steinhardt, Antony Kellermann, Sarah Schwettmann, Matei Zaharia, Ion Stoica, Percy Liang, Daniel Kang

Contour

Cet article identifie les problèmes liés aux benchmarks d'agents pour évaluer les performances des agents d'IA et propose la liste de contrôle des benchmarks d'agents (ABC), un guide pour y remédier. De nombreux benchmarks d'agents existants démontrent qu'ils peuvent sous-estimer ou surestimer les performances des agents jusqu'à 100 % en raison de problèmes de configuration des tâches ou de conception des récompenses. Par exemple, SWE-bench Verified utilise des cas de test insuffisants, et TAU-bench considère les réponses vides comme réussies. ABC a été développé en synthétisant l'expérience en matière de création de benchmarks, la recherche sur les meilleures pratiques et les problèmes signalés précédemment. Appliqué à CVE-Bench, dont le modèle d'évaluation est complexe, ABC a démontré une réduction de 33 % de la surestimation des performances.

Takeaways, Limitations

Takeaways:
Nous présentons des lignes directrices systématiques (ABC) pour garantir la fiabilité des repères des agents d’IA.
Nous révélons les problèmes liés à la conception et aux méthodes d’évaluation des benchmarks existants et démontrons la gravité des erreurs d’évaluation des performances qui en résultent.
L’application de l’ABC peut améliorer la fiabilité des repères et augmenter la précision de l’évaluation des performances des agents d’IA.
Limitations:
Une validation supplémentaire est nécessaire pour déterminer si l’ABC est applicable à tous les types de benchmarks d’agents.
Le processus d’application de l’ABC peut être complexe et prendre du temps.
Des recherches supplémentaires pourraient être nécessaires pour déterminer l’exhaustivité et l’objectivité de l’ABC elle-même.
👍