[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Establishing Best Practices for Building Rigorous Agentic Benchmarks

Created by
  • Haebom

作者

Yuxuan Zhu、Tengjun Jin、Yada Pruksachatkun、Andy Zhang、Shu Liu、Sasha Cui、Sayash Kapoor、Shayne Longpre、Kevin Meng、Rebecca Weiss、Fazl Barez、Rahul Gupta、Jwala Dhamala、Hacob Merizian、Mario Giulianelli Sekhon, Jacob Steinhardt, Antony Kellerman, Sarah Schwettmann, Matei Zaharia, Ion Stoica, Percy Liang, Daniel Kang

概要

この論文は、AIエージェントのパフォーマンスを評価するための既存のエージェントベンチマークの問題を指摘し、それを解決するための新しいガイドラインであるAgentic Benchmark Checklist(ABC)を提示します。既存のベンチマークは、課題設定や補償設計の問題によってエージェントのパフォーマンスを過小または過大評価する可能性があることを示しています。たとえば、SWE-bench Verifiedはテストケースが不足しており、TAU-benchは空の応答を成功したと見なします。 ABCは、ベンチマーク構築の経験、ベストプラクティス、および以前に報告された問題をまとめたもので、複雑な評価設計を持つCVE-Benchに適用して、パフォーマンスの過大評価を33%削減する効果を示しました。

Takeaways、Limitations

Takeaways: AIエージェントのベンチマークの信頼性を高めるための体系的なガイドライン(ABC)を提供することで、AIエージェントのパフォーマンス評価の精度を向上させることができます。
Limitations: ABCがすべてのタイプのエージェントベンチマークに適用可能であることをさらに検証する必要があります。 ABCの適用はベンチマーク開発の複雑さを高めるかもしれません。 ABCのすべての項目がすべてのベンチマークに同じ重要度を持つわけではありません。
👍