본 논문은 웹 에이전트를 대상으로 한 프롬프트 주입 공격에 대한 새로운 벤치마크인 WASP(Web Agent Security against Prompt injection attacks)를 제시한다. WASP는 현실적인 웹 에이전트 탈취 목표와 격리된 환경을 제공하여 실제 사용자나 실제 웹에 영향을 미치지 않고 공격을 테스트할 수 있도록 한다. VisualWebArena, Claude Computer Use, Operator 등 세 가지 인기 있는 웹 에이전트 시스템에 대한 기준 공격을 개발하여, 고급 추론 기능과 명령어 계층 구조 완화 기능을 갖춘 모델을 사용하는 AI 에이전트조차도 저렴한 노력으로 작성된 프롬프트 주입에 취약함을 보였다. 하지만 WASP의 현실적인 목표는 공격자가 끝까지 목표를 달성하는 데 현재 에이전트의 능력이 충분하지 않음을 보여준다. 에이전트는 적대적 명령을 1686%의 확률로 실행하지만 목표를 달성하는 비율은 017%에 불과하다. 따라서 연구자들은 현실적인 제약 조건 하에서 에이전트에 대한 제어를 더욱 일관되게 유지하는 더 강력한 공격을 보여줘야 한다고 주장한다.