GSO라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 고성능 소프트웨어 개발 능력을 평가하기 위해 설계되었으며, 다양한 도메인과 프로그래밍 언어를 포함하는 10개의 코드베이스에서 102개의 최적화 과제를 식별하기 위해 자동화된 파이프라인을 사용합니다. 에이전트는 코드베이스와 성능 테스트를 정확한 명세로 받고, 전문 개발자의 최적화 결과와 비교하여 실행 시간 효율성을 향상시키는 과제를 수행합니다. 실험 결과, 최첨단 SWE 에이전트는 성공률이 5% 미만으로 매우 저조하며, 추론 시간 확장에도 개선이 제한적임을 보여줍니다. 저수준 언어 처리의 어려움, 지연 최적화 전략 사용, 병목 현상 정확한 파악의 어려움 등 주요 실패 원인을 질적 분석을 통해 밝힙니다. 본 연구에서는 벤치마크 코드 및 결과물과 에이전트 경로를 공개하여 향후 연구를 지원합니다.