본 논문은 대규모 언어 모델(LLM)의 토큰화 과정에서 발생하는 취약점을 다룹니다. 기존 LLM 파이프라인은 주어진 문자열에 대해 단 하나의 토큰화만 고려하지만, 실제로는 여러 가지 토큰화 방법이 존재합니다. 예를 들어, "penguin"이라는 단어는 "[p, enguin]"으로 토큰화될 수도 있지만, "[peng, uin]"으로 토큰화될 수도 있습니다. 본 논문은 LLM이 하나의 토큰화 방식으로만 학습되었음에도 불구하고 다른 토큰화 방식에 대한 의미적 이해를 유지한다는 점을 보여주고, 이것이 LLM의 안전성에 미치는 영향에 대해 질문을 제기합니다. 특히 악의적인 문자열을 적대적으로 토큰화하여 안전 및 정렬 제약을 회피할 수 있는지 여부를 실험적으로 검증합니다. 결과적으로, 적대적 토큰화가 기존의 최첨단 적대적 접근 방식에 비해 경쟁력이 있으며, 유해한 요청의 텍스트를 변경하지 않고도 효과적인 공격 방법임을 밝힙니다. 세 가지 최첨단 LLM과 적대적 데이터 세트를 통해 이러한 취약점을 실험적으로 검증합니다.