SWE-bench 및 그 변형들은 제한된 저장소, 수동 작업 의존성 등의 한계로 인해 확장성이 부족하고 과적합 및 데이터 오염 위험이 존재한다. 본 논문에서는 이러한 한계를 극복하기 위해 실시간으로 업데이트 가능한 새로운 벤치마크인 SWE-bench-Live를 제시한다. SWE-bench-Live는 2024년 이후 생성된 GitHub 이슈 1,319개를 바탕으로 93개의 저장소에서 추출된 과제들로 구성되며, 각 과제는 재현 가능한 실행을 위해 전용 Docker 이미지를 제공한다. 자동화된 큐레이션 파이프라인인 \method를 통해 인스턴스 생성부터 환경 설정까지의 과정을 자동화하여 확장성과 지속적인 업데이트를 가능하게 한다. 기존 벤치마크와 비교하여 성능 차이를 보이며, 저장소 출처, 이슈 최신성, 과제 난이도에 따른 상세 분석을 수행한다.
시사점, 한계점
•
시사점:
◦
실시간 업데이트 가능한 벤치마크 SWE-bench-Live를 제시하여 기존 벤치마크의 한계(수동 작업 의존, 저장소 제한, 데이터 오염 위험)를 극복.