본 논문은 대규모 언어 모델(LLM)의 안전한 배포에 심각한 위협이 되는 백도어 공격에 대해 연구하며, 자동화된 백도어 주입을 위한 일반적인 프레임워크인 AutoBackdoor를 소개합니다. AutoBackdoor는 자율 에이전트 기반 파이프라인을 통해 트리거 생성, 오염된 데이터 구축 및 모델 미세 조정을 자동화합니다. 특히, 강력한 언어 모델 에이전트를 사용하여 의미론적으로 일관되고 상황에 맞는 트리거 구문을 생성하여 최소한의 인적 노력으로 임의의 주제에 걸쳐 확장 가능한 포이즈닝을 가능하게 합니다. Bias Recommendation, Hallucination Injection, Peer Review Manipulation 등 3가지 현실적인 위협 시나리오에서 AutoBackdoor를 평가하며, LLaMA-3, Mistral, Qwen, GPT-4o를 포함한 오픈 소스 및 상용 모델에 대한 실험 결과, 소수의 오염된 샘플만으로 90% 이상의 공격 성공률을 달성합니다. 또한, 기존 방어 방법이 이러한 공격을 완화하는 데 실패하는 점을 강조하며, 에이전트 기반 위협에 대한 더욱 엄격하고 적응적인 평가 기술의 필요성을 강조합니다.