본 논문은 대규모 언어 모델(LLM)의 안전 메커니즘을 우회하기 위한 적대적 공격인 Jailbreak에 대해 다룹니다. 기존 Jailbreak 공격은 높은 혼란도(perplexity)를 가지는 접미사나 긴 프롬프트 템플릿을 활용하는데, 이로 인해 입력 프롬프트에 대한 간단한 혼란도 기반 필터링으로 탐지될 수 있습니다. 이를 극복하기 위해 본 논문은 LatentBreak를 제안합니다. LatentBreak는 입력 프롬프트의 단어를 의미적으로 동등한 단어로 대체하여, 초기 의도를 유지하면서 낮은 혼란도를 갖는 자연스러운 적대적 프롬프트를 생성합니다. 이러한 단어는 적대적 프롬프트와 무해한 요청의 잠재 공간에서의 거리를 최소화하여 선택됩니다. 광범위한 평가 결과, LatentBreak는 짧고 낮은 혼란도의 프롬프트를 생성하여, 혼란도 기반 필터에 대한 경쟁 Jailbreak 알고리즘보다 뛰어난 성능을 보였습니다.