[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks

Created by
  • Haebom

作者

Pavel Adamenko, Mikhail Ivanov, Aidar Valeev, Rodion Levichev, Pavel Zadorozhny, Ivan Lopatin, Dmitry Babayev, Alena Fenogenova, Valentin Malykh

概要

本論文は、ソフトウェアエンジニアリング分野で使用される既存のベンチマーク、特にSWE-benchデータセットのLimitationsを指摘し、これを解決するための新しいベンチマークであるSWE-MERAを提示します。 SWE-benchは、データ汚染問題(直接的な解決策の漏洩および不適切なテストケース)が深刻で信頼性が低下することを指摘し、SWE-MERAは実際のGitHub問題を自動的に収集し、厳格な品質検証を通じてこれらの問題を解決しようとしています。現在、約10,000の潜在的なタスクと300のサンプルを提供しています。 2024年9月から2025年6月までに収集された作業について、12を超える最新のLLMのパフォーマンスを評価しました。

Takeaways、Limitations

Takeaways:
既存のSWE-benchデータセットのデータ汚染問題を明らかにし、新しいベンチマークの必要性を提示します。
実際のGitHub問題を活用した実用的なベンチマークSWE-MERAを提案し、自動化されたデータ収集と品質検証パイプラインを構築します。
様々な最新LLMの性能を比較評価し、モデルの差別性を示す。
継続的に更新される動的なベンチマークによるソフトウェアエンジニアリングの分野におけるLLMの発展に貢献
Limitations:
現在、10,000個の潜在的な作業のうち300個のサンプルのみが公開され、ベンチマークの規模が制限的である。
SWE-MERAの品質検証プロセスの具体的な説明が不足している可能性があります。
特定のコーディングエージェントに依存する評価結果になる可能性があります。
GitHubの問題に基づくデータセットなので、特定の種類のソフトウェアエンジニアリングの問題に偏る可能性があります。
👍