본 논문은 대규모 언어 모델(LLM)의 백도어 공격에 대한 새로운 기법인 CL-attack을 제안합니다. 기존의 고정 토큰 트리거나 문장 패턴 트리거 방식과 달리, CL-attack은 다국어를 포함하는 특정 구조의 문단 레벨에서 백도어를 주입합니다. 이를 통해 기존 기법보다 은밀성과 보편성이 향상되어 분류 및 생성 작업 모두에서 거의 100%의 공격 성공률을 달성할 수 있음을 실험적으로 보여줍니다. 또한, 기존 방어 기법에 대한 강인성을 입증하고, CL-attack에 대한 방어 기법으로 TranslateDefense를 제시합니다.