Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints

Created by
  • Haebom

作者

Zhiyu Fan, Kirill Vasilevski, Dayi Lin, Boyuan Chen, Yihao Chen, Zhiqing Zhong, Jie M. Zhang, Pinjia He, Ahmed E. Hassan

概要

本稿では、ソフトウェアエンジニアリング(SWE)作業における大規模言語モデル(LLM)とコードエージェントの効率を評価するための新しい指標であるSWE-Effiを提案します。従来のSWE評価指標は精度にのみ焦点を当てていますが、SWE-Effiは精度とリソース消費量(トークン数、時間など)の両方を考慮して効率を多次元的に評価します。本論文では,SWEベンチのサブセットを使用して課題解決AIシステムを再評価し,効率が基本モデルとの統合方式に依存することを示した。さらに、「トークンスノー効果」と「コストのかかる失敗」などのシステム上の課題を特定し、トークン予算と時間予算の下での効率との間の競合関係を分析します。

Takeaways、Limitations

Takeaways:
ソフトウェアエンジニアリングAIシステムの効率評価のための新しい多次元指標SWE-Effiの提示。
基本モデルとの統合が資源効率的な性能を達成する上で重要な役割を果たすという事実を発見した。
「トークン雪玉効果」や「コストのかかる失敗」などのシステム的な課題を明らかに。
トークン予算と時間予算の下での効率との間の競合関係を確認してください。
Limitations:
SWE‐Effi指標の一般化の可能性に関するさらなる研究が必要
「コストのかかる失敗」の問題に対する具体的な解決策の提示の欠如。
分析に使用されるSWEベンチサブセットの代表性のレビューが必要です。
👍