Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale

Created by
  • Haebom

저자

Zhun Wang, Tianneng Shi, Jingxuan He, Matthew Cai, Jialin Zhang, Dawn Song

개요

본 논문은 AI 에이전트의 사이버 보안 능력을 평가하기 위한 대규모 벤치마크인 CyberGym을 소개한다. CyberGym은 188개의 소프트웨어 프로젝트에서 1,507개의 실제 취약점을 포함하며, 에이전트에게 취약점 설명과 코드베이스를 제공하여 취약점을 재현하는 proof-of-concept 테스트를 생성하도록 한다. 연구 결과, CyberGym은 AI 에이전트와 모델의 사이버 보안 능력을 효과적으로 차별화하며, 최고 성능의 조합조차도 약 20%의 성공률을 보였다. CyberGym은 35개의 제로데이 취약점과 17개의 불완전한 패치를 발견하는 데 기여하여, AI의 사이버 보안 발전을 측정하는 강력한 벤치마크이자 실제 보안에 직접적인 영향을 미치는 플랫폼임을 입증했다.

시사점, 한계점

AI 기반 사이버 보안 능력 평가를 위한 현실적인 대규모 벤치마크 제시
AI 에이전트의 취약점 분석 능력을 객관적으로 평가
실제 제로데이 취약점 및 패치 발견에 기여
성공률이 낮아 난이도가 높음을 입증하여 추가적인 연구 필요성을 제시
벤치마크가 특정 유형의 취약점 및 코드베이스에 편향될 가능성 존재
벤치마크의 지속적인 업데이트 및 유지 관리 필요
👍