본 논문은 대규모 언어 모델(LLM)에 숨겨진 악성 행위, 즉 "sleeper agent"를 탐지하는 새로운 시스템을 제시합니다. 이 시스템은 안전 훈련을 거친 후에도 지속되는 백도어 공격을 실시간으로 탐지하기 위해 의미론적 드리프트 분석과 카나리아 기준 비교를 결합합니다. Sentence-BERT 임베딩을 사용하여 안전한 기준선과의 의미적 편차를 측정하고, 카나리아 질문을 주입하여 응답 일관성을 모니터링합니다. Cadenza-Labs의 dolphin-llama3-8B sleeper agent 모델을 대상으로 평가한 결과, 92.5% 정확도, 100% 정밀도, 85% 재현율을 달성했습니다. 이 시스템은 실시간으로 작동하며(쿼리당 <1초), 모델 수정 없이 LLM 백도어 탐지를 위한 실용적인 솔루션을 제공합니다.