Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

Created by
  • Haebom

저자

Manish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica

개요

GSO라는 고성능 소프트웨어 개발 능력 평가를 위한 벤치마크를 제시하는 논문입니다. 10개의 다양한 코드베이스에서 102개의 최적화 과제를 도출하여 자동화된 파이프라인을 통해 성능 테스트를 생성하고 실행합니다. 에이전트는 코드베이스와 성능 테스트를 입력받아 실행 시간 효율성을 개선하는 과제를 수행하며, 전문 개발자의 최적화 결과와 비교 평가합니다. 평가 결과, 최신 SWE-Agent들은 5% 미만의 성공률을 보이며, 추론 시간 확장에도 제한적인 성능 향상만을 보였습니다. 저수준 언어 처리, 지연 최적화 전략, 병목 지점 정확한 식별 등의 어려움이 주요 실패 원인으로 분석되었습니다. 벤치마크 코드, 아티팩트, 에이전트 경로를 공개하여 후속 연구를 지원합니다.

시사점, 한계점

시사점:
고성능 소프트웨어 개발 능력 평가를 위한 새로운 벤치마크 GSO 제시.
최신 SWE-Agent의 고성능 소프트웨어 개발 능력의 현실적인 수준을 정량적으로 제시.
SWE-Agent의 주요 실패 원인(저수준 언어 처리, 지연 최적화, 병목 지점 식별)을 규명.
향후 연구를 위한 벤치마크 코드 및 데이터 공개.
한계점:
현재 최고 수준의 SWE-Agent의 성공률이 매우 낮음 (5% 미만).
추론 시간 확장에도 성능 향상이 제한적임.
특정 언어나 코드베이스에 편향될 가능성 존재 (10개 코드베이스 사용).
👍