Sign In

DemonAgent: Dynamically Encrypted Multi-Backdoor Implantation Attack on LLM-based Agent

작성자
  • Haebom
카테고리
Empty

저자

Pengyu Zhu, Zhenhong Zhou, Yuanhe Zhang, Shilinlu Yan, Kun Wang, Sen Su

개요

LLM 기반 에이전트의 등장과 함께 사용자 질의나 환경 피드백을 통해 에이전트에 백도어가 심어질 수 있다는 안전 취약성 문제가 제기되고 있다. 본 논문에서는 기존 안전 감사를 우회하는 새로운 백도어 심기 전략인 Dynamically Encrypted Multi-Backdoor Implantation Attack을 제안한다. 이 전략은 백도어를 무해한 콘텐츠로 매핑하는 동적 암호화와 백도어를 여러 하위 백도어 조각으로 분해하는 기법을 사용하여 안전 감사를 효과적으로 회피한다. 또한, 에이전트 백도어 공격의 포괄적인 평가를 위한 데이터셋인 AgentBackdoorEval을 제시한다. 실험 결과는 다양한 데이터셋에서 100%에 가까운 공격 성공률과 0%의 탐지율을 달성하여 기존 안전 메커니즘의 한계와 더욱 강력한 방어의 필요성을 보여준다. 코드와 데이터는 https://github.com/whfeLingYu/DemonAgent에서 확인 가능하다.

시사점, 한계점

시사점:
기존 안전 감사 기법의 한계를 보여주는 새로운 고급 백도어 공격 기법 제시.
동적 암호화 및 다중 백도어 분해 기법을 통해 백도어 탐지 회피 성공.
에이전트 백도어 공격 평가를 위한 새로운 데이터셋 AgentBackdoorEval 제공.
LLM 기반 에이전트의 안전성 확보를 위한 더욱 강력한 방어 메커니즘 개발의 필요성 강조.
한계점:
제안된 공격 기법의 일반화 가능성 및 다양한 LLM 에이전트에 대한 적용성 추가 연구 필요.
AgentBackdoorEval 데이터셋의 범용성 및 확장성에 대한 추가적인 검토 필요.
제안된 공격 기법에 대한 효과적인 방어 메커니즘 연구 부족.
👍