본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 보안 취약성을 종합적으로 평가하기 위한 프레임워크인 Agent Security Bench (ASB)를 제시합니다. ASB는 10개의 시나리오, 10개의 에이전트, 400개 이상의 툴, 27가지 유형의 공격/방어 방법, 7가지 평가 지표를 포함하여 LLM 기반 에이전트에 대한 공격과 방어를 공식화, 벤치마킹 및 평가하도록 설계되었습니다. 본 연구는 13개의 LLM 백본을 대상으로 10가지 프롬프트 주입 공격, 메모리 포이즈닝 공격, 새로운 Plan-of-Thought 백도어 공격, 4가지 혼합 공격 및 11가지 방어 기법을 벤치마킹했습니다. 실험 결과, 시스템 프롬프트, 사용자 프롬프트 처리, 툴 사용 및 메모리 검색 등 에이전트 작동의 다양한 단계에서 심각한 취약성이 드러났으며, 평균 공격 성공률은 84.30%에 달했지만 현재 방어 기법의 효과는 제한적이었습니다. 또한, 유틸리티와 보안의 균형을 평가하는 새로운 지표를 제시합니다. 소스 코드는 https://github.com/agiresearch/ASB 에서 확인할 수 있습니다.