SWE-bench-Live는 기존의 SWE-bench의 한계점(데이터 부족, 수동 작업 의존, 오래된 데이터)을 극복하기 위해 개발된 실시간 업데이트가 가능한 새로운 소프트웨어 버그 수정 벤치마크입니다. 2024년 이후 생성된 GitHub 이슈 1,319개를 바탕으로, 93개의 저장소에서 추출된 실제 버그 수정 작업을 포함합니다. 각 작업은 재현 가능한 실행을 보장하기 위해 전용 Docker 이미지를 제공하며, 자동화된 큐레이션 파이프라인 \method를 통해 인스턴스 생성부터 환경 설정까지의 과정을 자동화하여 확장성과 지속적인 업데이트를 가능하게 합니다. 기존 벤치마크와 비교하여 최신의 다양한 데이터를 제공하며, 실제 소프트웨어 개발 환경을 반영하여 LLMs와 에이전트의 성능을 엄격하게 평가할 수 있습니다. 실험 결과, 기존 정적 벤치마크보다 성능 차이가 크게 나타났으며, 저장소, 이슈 최신성, 작업 난이도에 따른 상세 분석을 제공합니다.
시사점, 한계점
•
시사점:
◦
기존 SWE-bench의 한계점을 극복하는 새로운 벤치마크를 제공합니다.
◦
실시간 업데이트를 통해 최신의 다양한 데이터를 제공합니다.
◦
자동화된 파이프라인을 통해 벤치마크 생성 및 유지를 효율적으로 수행합니다.
◦
실제 소프트웨어 개발 환경을 반영하여 LLMs 및 에이전트의 성능을 더욱 현실적으로 평가할 수 있습니다.
◦
기존 벤치마크와의 성능 차이를 분석하여 향후 연구 방향을 제시합니다.
•
한계점:
◦
현재 1,319개의 task로 구성되어 있어, 규모가 더 큰 벤치마크에 비해 상대적으로 작을 수 있습니다.
◦
\method 파이프라인의 상세한 구현 방식에 대한 설명이 부족할 수 있습니다.
◦
GitHub 이슈에 국한되어, 다른 소스 코드 저장소의 버그 수정 작업은 반영되지 않았을 수 있습니다.