본 논문은 AI 에이전트의 사이버 보안 능력을 평가하기 위한 대규모 벤치마크인 CyberGym을 소개한다. CyberGym은 188개의 소프트웨어 프로젝트에서 1,507개의 실제 취약점을 포함하며, 에이전트에게 취약점 설명과 코드베이스를 제공하여 취약점을 재현하는 proof-of-concept 테스트를 생성하도록 한다. 연구 결과, CyberGym은 AI 에이전트와 모델의 사이버 보안 능력을 효과적으로 차별화하며, 최고 성능의 조합조차도 약 20%의 성공률을 보였다. CyberGym은 35개의 제로데이 취약점과 17개의 불완전한 패치를 발견하는 데 기여하여, AI의 사이버 보안 발전을 측정하는 강력한 벤치마크이자 실제 보안에 직접적인 영향을 미치는 플랫폼임을 입증했다.