본 논문은 대규모 언어 모델(LLM)의 유해 출력을 실시간으로 예측하는 비지도 학습 기반 프레임워크인 Safety-Net을 제안합니다. 핵심은 정상 동작을 기준으로 삼고 유해 출력을 이상치로 간주하여 사전에 위험한 출력을 감지하는 것입니다. 특히, 특정 입력 구문에 의해 활성화되는 백도어 공격에 초점을 맞춰, 폭력, 포르노, 증오 발언 등의 안전하지 않은 콘텐츠 생성을 예방하는 데 목표를 둡니다. 이를 위해 인간의 속임수와 유사하게, LLM이 유해 콘텐츠 생성 시 나타나는 내부 행동적 특징을 조사하여 진정한 인과 지표를 식별하고, 고도화된 모델의 기만(감시 시스템 회피)을 방지하는 데 중점을 둡니다. Safety-Net은 다차원 표현을 모니터링하는 다중 검출기 프레임워크로, 정보가 표현 공간을 이동하여 개별 모니터를 회피하더라도 유해 행동을 성공적으로 감지합니다. 평가 결과, 비지도 앙상블 접근 방식을 사용하여 96%의 정확도를 달성했습니다.