CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities
Created by
Haebom
저자
Yuxuan Zhu, Antony Kellermann, Dylan Bowman, Philip Li, Akul Gupta, Adarsh Danda, Richard Fang, Conner Jensen, Eric Ihli, Jason Benn, Jet Geronimo, Avi Dhir, Sudhit Rao, Kaicheng Yu, Twm Stone, Daniel Kang
개요
본 논문은 대규모 언어 모델(LLM) 에이전트가 자율적으로 사이버 공격을 수행하는 능력이 증가함에 따라 웹 애플리케이션 취약성 악용 능력을 평가하기 위한 현실적인 벤치마크의 필요성을 강조합니다. 기존 벤치마크는 Capture the Flag 경쟁의 추상화 또는 포괄적인 범위 부족으로 한계를 가지고 있기에, 연구진은 심각한 수준의 일반적인 취약점과 노출(CVE)을 기반으로 하는 현실적인 사이버 보안 벤치마크인 CVE-Bench를 제시합니다. CVE-Bench는 LLM 에이전트가 실제 환경을 모방한 시나리오에서 취약한 웹 애플리케이션을 악용하고 그 악용을 효과적으로 평가할 수 있는 샌드박스 프레임워크를 설계합니다. 평가 결과, 최첨단 에이전트 프레임워크가 최대 13%의 취약성을 해결할 수 있음을 보여줍니다.
시사점, 한계점
•
시사점: 실제 세계의 사이버 공격을 모방한 벤치마크인 CVE-Bench를 통해 LLM 에이전트의 웹 애플리케이션 취약성 악용 능력을 실제적으로 평가할 수 있는 기반을 마련했습니다. 최첨단 에이전트의 성능을 측정하여 향후 연구 및 개발 방향을 제시했습니다.
•
한계점: 현재 평가된 LLM 에이전트가 해결할 수 있는 취약성의 비율이 13%로 상대적으로 낮습니다. 더욱 다양하고 복잡한 CVE를 포함하여 벤치마크의 포괄성을 높일 필요가 있습니다. 실제 환경과 완벽히 동일한 샌드박스 환경 구축의 어려움이 존재합니다.