소프트웨어 엔지니어링 에이전트 평가를 위한 현재 벤치마크(SWE-Bench Verified 등)가 실제 개발 환경(IDE)에서의 상호작용을 제대로 반영하지 못해 에이전트 능력을 과대평가하는 문제를 제기합니다. 이를 해결하기 위해, 기존 벤치마크를 실제 사용자와 유사한 쿼리로 변환하는 새로운 벤치마킹 프레임워크를 제안합니다. 이 프레임워크를 SWE-Bench Verified, Multi-SWE-Bench의 TypeScript 부분집합, 그리고 SWE-Bench C#에 적용하여, 기존 벤치마크가 일부 모델의 능력을 과대평가함을 밝혔습니다.