Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SWE-bench Goes Live!

Created by
  • Haebom

저자

Linghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang

개요

SWE-bench 및 그 변형들은 제한된 저장소, 수동 작업 의존성 등의 한계로 인해 확장성이 부족하고 과적합 및 데이터 오염 위험이 존재한다. 본 논문에서는 이러한 한계를 극복하기 위해 실시간으로 업데이트 가능한 새로운 벤치마크인 SWE-bench-Live를 제시한다. SWE-bench-Live는 2024년 이후 생성된 GitHub 이슈 1,319개를 바탕으로 93개의 저장소에서 추출된 과제들로 구성되며, 각 과제는 재현 가능한 실행을 위해 전용 Docker 이미지를 제공한다. 자동화된 큐레이션 파이프라인인 \method를 통해 인스턴스 생성부터 환경 설정까지의 과정을 자동화하여 확장성과 지속적인 업데이트를 가능하게 한다. 기존 벤치마크와 비교하여 성능 차이를 보이며, 저장소 출처, 이슈 최신성, 과제 난이도에 따른 상세 분석을 수행한다.

시사점, 한계점

시사점:
실시간 업데이트 가능한 벤치마크 SWE-bench-Live를 제시하여 기존 벤치마크의 한계(수동 작업 의존, 저장소 제한, 데이터 오염 위험)를 극복.
자동화된 큐레이션 파이프라인을 통해 확장성 및 지속적인 업데이트 가능.
다양한 저장소와 최신 이슈를 포함하여 현실적인 소프트웨어 개발 환경을 반영.
최신 LLM 및 에이전트 프레임워크의 성능 평가 및 분석을 통해 성능 차이를 규명.
한계점:
현재까지의 벤치마크 데이터는 2024년 이후의 GitHub 이슈에 한정됨. (데이터의 시간적 제약)
\method 파이프라인의 구체적인 알고리즘 및 성능에 대한 자세한 설명이 부족할 수 있음.
다양한 프로그래밍 언어와 개발 환경에 대한 지원 수준이 명시적으로 제시되지 않음.
👍