Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts

Created by
  • Haebom

作者

Hjalmar Wijk, Tao Lin, Joel Becker, Sami Jawhar, Neev Parikh, Thomas Broadley, Lawrence Chan, Michael Chen, Josh Clymer, Jai Dhyani, Elena Ericheva, Katharyn Garcia, Brian Goodrich, Nikola Jurkovic, Holden Karnofsky, Megan Kinniment, Megan Kinniment Saunders, Maksym Taran, Ben West, Elizabeth Barnes

概要

この論文では、AI研究開発(R&D)能力評価のための新しいベンチマークであるRE-Bench(Research Engineering Benchmark、v1)を紹介します。 RE-Benchは、7つの難しいオープンなML研究エンジニアリング環境と61人の専門家が8時間試した71のデータで構成されています。論文は8時間の間に専門家がかなりの進歩を遂げ(82%がゼロではなくスコアを達成し、24%が基準ソリューションを満たしているか超えている)、いくつかの最先端のモデルと人間の専門家のパフォーマンスを比較分析します。 2時間の時間制限では、最高のAIエージェントが人間の専門家より4倍高いスコアを達成しますが、8時間以上の時間が与えられれば人間の成果がAIを上回り、32時間の時間制限では人間がAIより2倍高いスコアを記録します。 AIエージェントは、多くのMLトピックに関するかなりの専門知識を持っています(たとえば、人間の専門家よりも速くカスタマイズされたTritonカーネルを作成)、人間よりも10倍以上速くて安価なソリューションを作成してテストできます。 RE-Benchの評価環境、人間の専門家データ、分析コード、およびエージェントパスはオープンソースとして公開され、将来の研究に活用される可能性があります。

Takeaways、Limitations

Takeaways:
現存最先端AIモデルのML研究開発能力の現実的な評価基準を提示する。
人間の専門家とAIエージェントのパフォーマンスを直接比較して、それぞれの強みと弱点を示しています。
AIエージェントの高速化と効率性を確認し、AIを活用した研究開発を加速する可能性を提示します。
オープンソースデータセットと評価環境を提供することで、今後の研究開発に貢献します。
Limitations:
ベンチマークの課題が特定のML分野に偏り、一般化に限界がある可能性があります。
参加した人間の専門家の数と多様性は限られているかもしれません。
長期の研究開発プロセス全体を反映せず、短期的な成果に集中しています。
AIエージェントのパフォーマンスが向上するため、ベンチマークの継続的な更新が必要です。
👍