Sign In

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

Created by
  • Haebom
Category
Empty

저자

Hanrong Zhang, Jingyuan Huang, Kai Mei, Yifei Yao, Zhenting Wang, Chenlu Zhan, Hongwei Wang, Yongfeng Zhang

개요

본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 보안 취약성을 종합적으로 평가하기 위한 프레임워크인 Agent Security Bench (ASB)를 제시합니다. ASB는 10가지 시나리오(예: 전자상거래, 자율 주행, 금융), 10개의 에이전트, 400개 이상의 도구, 27가지 유형의 공격/방어 방법, 7가지 평가 지표를 포함합니다. 본 논문에서는 ASB를 기반으로 13개의 LLM 백본에 대해 10가지 프롬프트 주입 공격, 메모리 포이즈닝 공격, 새로운 Plan-of-Thought 백도어 공격, 4가지 혼합 공격 및 11가지 방어 기법을 벤치마킹합니다. 실험 결과, 에이전트 작동의 다양한 단계(시스템 프롬프트, 사용자 프롬프트 처리, 도구 사용, 메모리 검색 등)에서 심각한 취약성이 드러났으며, 평균 공격 성공률은 84.30%에 달하지만 현재 방어 기법의 효과는 제한적임을 보여줍니다. 또한, 유틸리티와 보안의 균형을 평가하기 위한 새로운 지표를 제시합니다. 소스 코드는 https://github.com/agiresearch/ASB 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
LLM 기반 에이전트의 다양한 단계에서 심각한 보안 취약성 존재를 밝힘.
프롬프트 주입, 메모리 포이즈닝, Plan-of-Thought 백도어 공격 등 다양한 공격 유형에 대한 효과적인 방어 기법 개발의 필요성 제시.
LLM 기반 에이전트의 유틸리티와 보안을 균형 있게 평가할 수 있는 새로운 지표 제시.
LLM 기반 에이전트 보안 연구를 위한 종합적인 벤치마킹 프레임워크(ASB) 제공.
한계점:
현재 방어 기법의 효과가 제한적임. 더욱 강력한 방어 기법 개발 필요.
ASB에 포함된 공격 및 방어 방법의 종류가 완벽하게 포괄적이지 않을 수 있음. 더 많은 공격 및 방어 기법 추가 필요.
평가된 LLM 백본의 종류가 제한적일 수 있음. 다양한 LLM 백본에 대한 추가 연구 필요.
👍