Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason

Created by
  • Haebom

作者

Shanchao Liang, Spandan Garg, Roshanak Zilouchian Moghaddam

概要

この論文は、大規模言語モデル(LLM)のソフトウェアエンジニアリング能力を評価するためのベンチマークであるSWE-Bench VerifiedのLimitationsを指摘しています。経路を識別する課題と、現在のファイルコンテキストと問題説明だけで関数を再現する課題を提示し、実験結果を提示する結果、最新のLLMがSWE-Benchに含まれるデータに対しては高い精度を示すが、外部データには低い精度を示すことで暗記効果を示唆するため、LLMのコーディング能力を信頼する。必要だと結論づける。

Takeaways、Limitations

Takeaways: SWE-Bench Verifiedなどの既存のベンチマークの信頼性に関する疑問の提起とLLM性能評価の重要性を強調しています。 LLMの真の問題解決能力と暗記能力を区別する新しい評価方法の提示データ汚染に関する懸念に基づいて、より堅牢で一般化されたベンチマーク開発の必要性を提示します。
Limitations:提示された2つの診断課題は、特定の種類の問題解決能力にのみ焦点を当てたものであり、LLMの全体的なコーディング能力を完全に反映できない可能性があります。新しいベンチマーク開発に対する具体的な提案が不足している。さまざまな種類のLLMとベンチマークの実験結果がさらに必要です。
👍