DemonAgent: Dynamically Encrypted Multi-Backdoor Implantation Attack on LLM-based Agent

작성자

Haebom

카테고리

Empty

저자

Pengyu Zhu, Zhenhong Zhou, Yuanhe Zhang, Shilinlu Yan, Kun Wang, Sen Su

개요

LLM 기반 에이전트의 등장과 함께 사용자 질의나 환경 피드백을 통해 에이전트에 백도어가 심어질 수 있다는 안전 취약성 문제가 제기되고 있다. 본 논문에서는 기존 안전 감사를 우회하는 새로운 백도어 심기 전략인 Dynamically Encrypted Multi-Backdoor Implantation Attack을 제안한다. 이 전략은 백도어를 무해한 콘텐츠로 매핑하는 동적 암호화와 백도어를 여러 하위 백도어 조각으로 분해하는 기법을 사용하여 안전 감사를 효과적으로 회피한다. 또한, 에이전트 백도어 공격의 포괄적인 평가를 위한 데이터셋인 AgentBackdoorEval을 제시한다. 실험 결과는 다양한 데이터셋에서 100%에 가까운 공격 성공률과 0%의 탐지율을 달성하여 기존 안전 메커니즘의 한계와 더욱 강력한 방어의 필요성을 보여준다. 코드와 데이터는 https://github.com/whfeLingYu/DemonAgent에서 확인 가능하다.