Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason

Created by
  • Haebom

作者

Shanchao Liang, Spandan Garg, Roshanak Zilouchian Moghaddam

概要

本論文は、大規模言語モデル(LLM)のソフトウェアエンジニアリング能力を評価するためのベンチマークであるSWE-Bench VerifiedのLimitationsを指摘しています。最近、LLMはSWE-Benchで高い性能を示していますが、これは実際の問題解決能力ではなく、データの暗記や汚染に起因する可能性があるということです。論文では、これを検証するために問題記述だけでファイルパスを識別する作業と、現在のファイルコンテキストと問題説明だけで関数を再現する作業という2つの診断課題を提示する。実験の結果、最先端のモデルがSWE-Benchに含まれるデータについては高い精度を示すが、含まれていないデータについては精度が急激に低下することを確認し、SWE-Benchの評価結果に対する信頼性問題を提起する。これは、LLMのコーディング能力を評価するためのより強力で汚染に強いベンチマークの必要性を強調します。

Takeaways、Limitations

Takeaways: SWE-Bench Verifiedなどの既存のベンチマークがLLMの実際のトラブルシューティング能力を正確に評価できないことを示しています。 LLMの性能評価には、データの暗記や汚染を防ぐためのより堅牢なベンチマークが必要です。 LLMの一般化された問題解決能力と暗記能力を区別する新しい評価方法論の開発が必要です。
Limitations:提示された2つの診断課題は、特定の種類の問題解決能力のみを評価することです。さまざまな種類のソフトウェアエンジニアリング課題を網羅するより包括的なベンチマーク開発が必要です。この研究で使用されているデータセットの特徴によって、結果は一般化されないかもしれません。
👍