GitGoodBench는 소프트웨어 엔지니어링 AI 에이전트의 버전 관리 시스템(VCS) 작업 수행 능력을 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크의 한계를 극복하고자 Python, Java, Kotlin 오픈소스 저장소에서 추출한 세 가지 핵심 Git 시나리오를 다룹니다. 총 900개 샘플의 종합 평가 세트, 120개 샘플의 빠른 프로토타이핑 버전, 17,469개 샘플의 학습 데이터셋을 제공하며, GPT-4o를 이용한 프로토타이핑 버전 실험 결과 21.11%의 해결률을 달성했습니다. 단순 프로그래밍을 넘어선 진정한 의미의 종합적인 소프트웨어 엔지니어링 에이전트 개발에 중요한 역할을 할 것으로 기대됩니다.