Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AutoBackdoor: Automating Backdoor Attacks via LLM Agents

Created by
  • Haebom
Category
Empty

저자

Yige Li, Zhe Li, Wei Zhao, Nay Myat Min, Hanxun Huang, Xingjun Ma, Jun Sun

개요

본 논문은 대규모 언어 모델(LLM)의 안전한 배포에 심각한 위협이 되는 백도어 공격에 대해 연구하며, 자동화된 백도어 주입을 위한 일반적인 프레임워크인 AutoBackdoor를 소개합니다. AutoBackdoor는 자율 에이전트 기반 파이프라인을 통해 트리거 생성, 오염된 데이터 구축 및 모델 미세 조정을 자동화합니다. 특히, 강력한 언어 모델 에이전트를 사용하여 의미론적으로 일관되고 상황에 맞는 트리거 구문을 생성하여 최소한의 인적 노력으로 임의의 주제에 걸쳐 확장 가능한 포이즈닝을 가능하게 합니다. Bias Recommendation, Hallucination Injection, Peer Review Manipulation 등 3가지 현실적인 위협 시나리오에서 AutoBackdoor를 평가하며, LLaMA-3, Mistral, Qwen, GPT-4o를 포함한 오픈 소스 및 상용 모델에 대한 실험 결과, 소수의 오염된 샘플만으로 90% 이상의 공격 성공률을 달성합니다. 또한, 기존 방어 방법이 이러한 공격을 완화하는 데 실패하는 점을 강조하며, 에이전트 기반 위협에 대한 더욱 엄격하고 적응적인 평가 기술의 필요성을 강조합니다.

시사점, 한계점

시사점:
자동화된 백도어 공격 프레임워크인 AutoBackdoor를 제시하여, 공격 시나리오를 자동화하고 효율성을 증대시킴.
다양한 LLM 모델(LLaMA-3, Mistral, Qwen, GPT-4o) 및 공격 시나리오(Bias Recommendation, Hallucination Injection, Peer Review Manipulation)에 대한 광범위한 평가를 수행.
소수의 오염된 샘플로도 높은 공격 성공률을 달성하여, 백도어 공격의 강력함을 입증.
기존 방어 기법의 한계를 지적하며, 보다 강력하고 적응적인 방어 메커니즘의 필요성을 제기.
한계점:
구체적인 방어 메커니즘 제안 및 검증은 포함하지 않음.
AutoBackdoor 프레임워크의 일반화 가능성 및 다른 공격 시나리오에 대한 확장성에 대한 추가적인 연구가 필요.
상용 모델(GPT-4o)의 경우, 접근 제한 및 사용 비용과 관련된 한계 존재.
👍