본 논문은 대규모 언어 모델(LLM)의 백도어 공격 취약성을 체계적으로 평가하기 위한 첫 번째 종합적인 벤치마크인 BackdoorLLM을 제시합니다. BackdoorLLM은 표준화된 훈련 및 평가 파이프라인을 갖춘 통합된 벤치마크 저장소를 제공하며, 데이터 포이즈닝, 가중치 포이즈닝, 은닉 상태 조작, 사고 과정 하이재킹 등 다양한 공격 방식을 포함합니다. 8가지 공격 전략, 7가지 실제 시나리오, 6가지 모델 아키텍처에 걸쳐 200개 이상의 실험을 수행하여 LLM에서 백도어 효과 및 오류 모드를 결정하는 요인에 대한 주요 통찰력을 제공하며, 7가지 대표적인 완화 기술을 포함하는 방어 도구 키트도 제공합니다. Center for AI Safety가 주최한 SafetyBench 경연대회에서 1위를 수상하였습니다.