본 논문은 대규모 언어 모델(LLM)의 정렬(alignment) 과정에서 발견된 취약점을 다룹니다. 기존의 감독 미세조정(SFT) 및 인간 피드백 강화 학습(RLHF)을 통해 유해한 질의와 무해한 질의를 구분하도록 학습된 LLM들이, 문장의 끝을 나타내는 eos 토큰을 여러 개 추가하는 간단한 조작에 취약하다는 것을 보여줍니다. 이러한 조작은 컨텍스트 분할(context segmentation)이라는 현상을 유발하여 유해한 입력과 무해한 입력 모두 거부 경계(refusal boundary)에 가까워지게 만듭니다. 논문에서는 eos 토큰 추가를 통해 탈옥 공격(jailbreak attacks)을 증폭시키는 방법을 제안하고, 8가지 대표적인 탈옥 기법과 16개의 오픈소스 LLM을 대상으로 한 실험을 통해 이 방법의 효과를 입증합니다. 또한, OpenAI, Anthropic, Qwen과 같은 주요 상용 API에서도 eos 토큰 필터링이 이루어지지 않아 유사한 취약점을 가지고 있음을 밝힙니다.