본 논문은 대규모 언어 모델(LLM)의 안전 장치를 우회하여 유해한 응답을 유도하는, '탈옥 공격(jailbreak attacks)'에 대한 새로운 자동화된 프레임워크인 Generative Adversarial Suffix Prompter (GASP)를 제시합니다. 기존의 수동적 방법이나 최적화 기반 공격의 한계(일반화의 어려움, 비자연스러운 프롬프트 생성, 높은 계산 비용)를 극복하기 위해, GASP는 연속적인 잠재 임베딩 공간을 효율적으로 탐색하는 잠재 베이지안 최적화를 활용하여 인간이 읽을 수 있는 탈옥 프롬프트를 생성합니다. 목표 지향적인 반복적 개선 절차를 통해 프롬프트의 일관성을 유지하면서 공격 효과를 향상시킵니다. 실험 결과, GASP는 기존 방법보다 탈옥 성공률을 높이고, 훈련 시간과 추론 속도를 단축시키는 효율적이고 확장 가능한 솔루션임을 보여줍니다.