Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramer
개요
본 논문은 외부 환경과 상호 작용하는 에이전트 시스템에 점점 더 많이 배포되는 대규모 언어 모델(LLM)이 신뢰할 수 없는 데이터를 처리할 때 프롬프트 주입 공격에 취약하다는 문제를 다룹니다. 이에 따라, 기본 모델이 공격에 취약하더라도 LLM을 보호하는 보호 시스템 계층을 생성하는 강력한 방어 메커니즘인 CaMeL을 제안합니다. CaMeL은 (신뢰할 수 있는) 쿼리에서 제어 및 데이터 흐름을 명시적으로 추출하여 작동하므로, LLM이 검색한 신뢰할 수 없는 데이터가 프로그램 흐름에 영향을 미칠 수 없습니다. 또한, 무단 데이터 흐름을 통한 개인 데이터 유출을 방지하기 위해 기능(capability) 개념에 의존하여 보안을 더욱 향상시킵니다. 최근 에이전트 보안 벤치마크인 AgentDojo [NeurIPS 2024]에서 증명 가능한 보안으로 작업의 67%를 해결함으로써 CaMeL의 효과를 입증합니다.
시사점, 한계점
•
시사점: LLM 기반 에이전트 시스템의 프롬프트 주입 공격에 대한 효과적인 방어 메커니즘인 CaMeL을 제시하여 LLM 에이전트의 보안을 강화할 수 있습니다. AgentDojo 벤치마크에서 상당한 성능을 보여줌으로써 실제 적용 가능성을 시사합니다. 신뢰할 수 있는 쿼리에서 제어 및 데이터 흐름을 명시적으로 분리하는 접근 방식은 다른 보안 시스템 설계에도 영감을 줄 수 있습니다.
•
한계점: AgentDojo 벤치마크에서 67%의 성공률은 완벽한 보안을 의미하지 않으며, 다양한 유형의 공격에 대한 CaMeL의 강건성을 더욱 광범위하게 평가할 필요가 있습니다. CaMeL의 성능 오버헤드 및 구현 복잡성에 대한 자세한 분석이 필요합니다. 다양한 LLM 아키텍처 및 에이전트 시스템에 대한 CaMeL의 일반화 가능성에 대한 추가 연구가 필요합니다.