본 논문은 API를 통해 접근 가능한 대규모 언어 모델(LLM)의 백도어 공격 취약성을 해결하기 위한 새로운 방어 기법인 Chain-of-Scrutiny (CoS)를 제안합니다. 기존의 방어 전략들이 LLM의 제한된 접근성, 높은 계산 비용 및 데이터 요구 사항으로 인해 실용적이지 못한 것과 달리, CoS는 LLM의 추론 능력을 활용하여 입력에 대한 추론 과정을 생성하고 최종 출력과의 일관성을 검토함으로써 백도어 공격을 완화합니다. 자연어 기반의 사용자 친화적인 접근 방식으로 비전문가도 손쉽게 사용할 수 있으며, API 기반의 LLM 배포 환경에서 최소한의 비용과 데이터로 공격을 탐지할 수 있다는 장점이 있습니다. 실험 결과, 강력한 LLM일수록 CoS의 효과가 더 크다는 것을 확인했습니다.