WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks

Author

Haebom

저자

Ivan Evtimov, Arman Zharmagambetov, Aaron Grattafiori, Chuan Guo, Kamalika Chaudhuri

개요

본 논문은 웹 에이전트를 대상으로 한 프롬프트 주입 공격에 대한 새로운 벤치마크인 WASP(Web Agent Security against Prompt injection attacks)를 제시한다. WASP는 현실적인 웹 에이전트 탈취 목표와 격리된 환경을 제공하여 실제 사용자나 실제 웹에 영향을 미치지 않고 공격을 테스트할 수 있도록 한다. VisualWebArena, Claude Computer Use, Operator 등 세 가지 인기 있는 웹 에이전트 시스템에 대한 기준 공격을 개발하여, 고급 추론 기능과 명령어 계층 구조 완화 기능을 갖춘 모델을 사용하는 AI 에이전트조차도 저렴한 노력으로 작성된 프롬프트 주입에 취약함을 보였다. 하지만 WASP의 현실적인 목표는 공격자가 끝까지 목표를 달성하는 데 현재 에이전트의 능력이 충분하지 않음을 보여준다. 에이전트는 적대적 명령을 1686%의 확률로 실행하지만 목표를 달성하는 비율은 017%에 불과하다. 따라서 연구자들은 현실적인 제약 조건 하에서 에이전트에 대한 제어를 더욱 일관되게 유지하는 더 강력한 공격을 보여줘야 한다고 주장한다.

시사점, 한계점

•

시사점:

◦

현실적인 웹 에이전트 탈취 목표와 격리된 테스트 환경을 제공하는 WASP 벤치마크 제시.

◦

고급 모델을 사용하는 웹 에이전트라도 저렴한 프롬프트 주입 공격에 취약함을 증명.

◦

현실적인 제약 조건 하에서 공격자가 웹 에이전트를 완전히 제어하는 데는 한계가 있음을 확인.

◦

향후 연구 방향으로 더욱 강력하고 일관된 공격 연구의 필요성 제시.

•

한계점:

◦

WASP 벤치마크에서 사용된 공격의 성공률이 낮음 (0~17%).

◦

공격자의 능력에 대한 현실적인 제약 조건 설정의 구체적인 내용이 부족할 수 있음.

◦

다양한 유형의 웹 에이전트와 모델에 대한 평가가 더욱 확장될 필요가 있음.

PDF 보기

Made with Slashpage