Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities

Created by
  • Haebom
Category
Empty

저자

Yuxuan Zhu, Antony Kellermann, Dylan Bowman, Philip Li, Akul Gupta, Adarsh Danda, Richard Fang, Conner Jensen, Eric Ihli, Jason Benn, Jet Geronimo, Avi Dhir, Sudhit Rao, Kaicheng Yu, Twm Stone, Daniel Kang

개요

본 논문은 대규모 언어 모델(LLM) 에이전트가 자율적으로 사이버 공격을 수행할 수 있게 되면서 기존 애플리케이션에 심각한 위협이 되고 있음을 지적합니다. 현존하는 벤치마크는 추상적인 Capture the Flag 대회에 국한되거나 포괄적인 범위가 부족하여 실제 세계의 취약성을 평가하는 데 부족함을 드러냅니다. 이러한 문제를 해결하기 위해, 본 논문은 심각도가 높은 Common Vulnerabilities and Exposures(CVE)를 기반으로 하는 실제 세계 사이버 보안 벤치마크인 CVE-Bench를 제시합니다. CVE-Bench는 LLM 에이전트가 실제 환경과 유사한 시나리오에서 취약한 웹 애플리케이션을 악용할 수 있도록 하는 샌드박스 프레임워크를 설계하여 악용 행위를 효과적으로 평가합니다. 평가 결과, 최첨단 에이전트 프레임워크가 최대 13%의 취약성을 해결할 수 있음을 보여줍니다.

시사점, 한계점

시사점: 실제 세계의 사이버 보안 위협을 평가하기 위한 새로운 벤치마크인 CVE-Bench를 제시함으로써, LLM 에이전트의 취약점 악용 능력에 대한 실질적인 평가가 가능해짐. 최첨단 LLM 에이전트의 성능 한계를 보여줌.
한계점: 현재 13%의 취약성만 해결 가능하다는 점은 향후 개선이 필요함을 시사. 벤치마크에 포함된 CVE의 수나 종류에 따라 성능 평가 결과가 달라질 수 있음. 실제 세계의 모든 공격 시나리오를 완벽하게 반영하지 못할 수 있음.
👍