본 논문은 대규모 언어 모델(LLM)의 토큰화 과정에 존재하는 취약점을 밝힙니다. 기존 LLM 파이프라인은 주어진 문자열에 대해 단 하나의 토큰화만을 고려하지만, 실제로는 다양한 토큰화 방식이 존재합니다. 예를 들어, "penguin"이라는 단어는 "[p,enguin]"으로 토큰화될 수도 있지만, "[peng,uin]"으로 토큰화될 수도 있습니다. 본 논문은 LLM이 단 하나의 토큰화 방식으로만 학습되었음에도 불구하고 다른 토큰화 방식에 대한 의미적 이해를 유지한다는 사실을 보여주고, 이러한 현상이 LLM의 안전성에 미치는 영향에 대해 질문을 제기합니다. 특히, 악의적인 문자열을 적대적으로 토큰화하여 안전 및 정렬 제약을 회피할 수 있는지 여부를 실험적으로 검증합니다. 실험 결과, 적대적 토큰화가 기존 최첨단 적대적 접근 방식에 비해 경쟁력 있는 효과적인 공격 방식임을 확인하고, 세 가지 최첨단 LLM과 적대적 데이터 세트에서 이러한 취약점을 검증하여 하위 단어 모델의 알려지지 않은 취약성을 밝힙니다.