Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition
Created by
Haebom
저자
Andy Zou, Maxwell Lin, Eliot Jones, Micha Nowak, Mateusz Dziemian, Nick Winter, Alexander Grattan, Valent Nathanael, Ayla Croft, Xander Davies, Jai Patel, Robert Kirk, Nate Burnikell, Yarin Gal, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson
개요
본 논문은 최첨단 AI 에이전트 22개를 대상으로 44가지 현실적인 배포 시나리오에서 대규모 공개 레드팀 경쟁을 수행한 결과를 제시합니다. 참가자들은 180만 건 이상의 프롬프트 주입 공격을 제출했으며, 그중 6만 건 이상이 무단 데이터 접근, 불법 금융 행위, 규제 위반과 같은 정책 위반을 유발했습니다. 이를 바탕으로 Agent Red Teaming (ART) 벤치마크를 구축하고 19개의 최첨단 모델에서 평가했습니다. 대부분의 에이전트는 10~100회의 질의 내에서 대부분의 행동에 대해 정책 위반을 보였으며, 모델과 작업 간의 공격 전이성이 높았습니다. 에이전트의 강건성과 모델 크기, 기능 또는 추론 시간 계산 간의 상관관계는 제한적이었으며, 적대적 악용에 대한 추가적인 방어가 필요함을 시사합니다. 본 연구는 현재 AI 에이전트의 심각하고 지속적인 취약성을 강조하며, ART 벤치마크 및 관련 평가 프레임워크를 공개하여 보다 엄격한 보안 평가를 지원하고 더 안전한 에이전트 배포를 위한 진전을 도모하고자 합니다.
시사점, 한계점
•
시사점:
◦
최첨단 AI 에이전트의 심각한 보안 취약성을 밝힘.
◦
모델 크기, 기능 또는 추론 시간 계산과 에이전트 강건성 간의 상관관계가 제한적임을 발견. 추가적인 방어 메커니즘 필요성 제시.
◦
ART 벤치마크 및 평가 프레임워크를 제공하여 더욱 엄격한 보안 평가를 가능하게 함.
◦
프롬프트 주입 공격의 높은 성공률과 모델 간의 높은 공격 전이성을 확인.
•
한계점:
◦
본 연구의 레드팀 경쟁 참가자들의 전문성 및 공격 기법의 다양성에 대한 자세한 설명 부족.
◦
ART 벤치마크의 일반화 가능성 및 다양한 환경에서의 적용 가능성에 대한 추가적인 연구 필요.