GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents
Created by
Haebom
Category
Empty
저자
Manish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica
개요
GSO는 고성능 소프트웨어 개발 능력을 평가하기 위한 언어 모델 벤치마크입니다. 10개의 코드베이스, 다양한 도메인 및 프로그래밍 언어를 포괄하는 102개의 어려운 최적화 작업을 식별하기 위해 저장소 커밋 기록을 분석하는 자동화된 파이프라인을 개발합니다. 에이전트는 코드베이스와 성능 테스트를 정밀한 사양으로 제공받고, 전문가 개발자의 최적화에 맞춰 런타임 효율성을 개선하는 과제를 수행합니다. 정량적 평가 결과, 주요 SWE-에이전트들은 5% 미만의 성공률을 보이며 어려움을 겪었습니다.