本論文は、大規模言語モデル(LLM)のソフトウェアエンジニアリング能力を評価するためのベンチマークであるSWE-Bench VerifiedのLimitationsを指摘しています。最近、LLMはSWE-Benchで高い性能を示していますが、これは実際の問題解決能力ではなく、データの暗記や汚染に起因する可能性があるということです。論文では、これを検証するために問題記述だけでファイルパスを識別する作業と、現在のファイルコンテキストと問題説明だけで関数を再現する作業という2つの診断課題を提示する。実験の結果、最先端のモデルがSWE-Benchに含まれるデータについては高い精度を示すが、含まれていないデータについては精度が急激に低下することを確認し、SWE-Benchの評価結果に対する信頼性問題を提起する。これは、LLMのコーディング能力を評価するためのより強力で汚染に強いベンチマークの必要性を強調します。