본 논문은 대규모 언어 모델(LLM)의 안전 장치를 우회하기 위해 암호화 및 문자 수준 인코딩을 사용하는 탈옥 공격에 대한 방어 기술인 CPT-Filtering을 소개합니다. CPT-Filtering은 Byte-Pair Encoding(BPE) 토크나이저의 고유한 동작을 활용하여 모델에 독립적이며 비용이 거의 들지 않고 정확도가 높은 가드레일 기술입니다. 이 기술은 자연어 텍스트에 대해 훈련된 토크나이저가 암호화된 텍스트와 같은 out-of-distribution 텍스트를 더 많은 수의 짧은 토큰으로 표현한다는 원리에 기반합니다. CPT-Filtering은 텍스트의 Characters Per Token (CPT) 평균 수를 사용하여 인코딩된 텍스트를 식별합니다. 이 방법은 전용 LLM이나 복잡한 모듈에 의존하는 기존 방식의 높은 계산 비용 문제를 해결합니다. 10만 개 이상의 프롬프트 데이터셋과 다양한 인코딩 방식, 토크나이저를 사용하여 실험한 결과, CPT 임계값을 통해 인코딩된 텍스트를 높은 정확도로 식별할 수 있음을 확인했습니다. CPT-Filtering은 실시간 텍스트 필터링 및 오프라인 데이터 관리에 즉시 적용 가능한 방어 계층을 제공합니다.