대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 뛰어난 성능을 보였지만, 문자 수준의 적대적 조작에 취약하여 실제 배포 시 심각한 보안 문제를 야기합니다. 본 논문에서는 안전 메커니즘을 우회하기 위한 유니코드, 동형 문자, 구조적 및 텍스트 인코딩 공격과 같은 다양한 특수 문자 공격에 대한 연구를 제시합니다. 3.8B에서 32B 매개변수에 이르는 7개의 주요 오픈 소스 모델을 4,000개 이상의 공격 시도로 평가했습니다. 이 실험은 모든 모델 크기에서 심각한 취약성을 드러내며, 성공적인 탈옥, 일관성 없는 출력 및 관련 없는 환각을 포함한 실패 모드를 보여줍니다.