본 논문은 기존의 비논리적인 적대적 프롬프트 기반의 대규모 언어 모델(LLM) 취약점 공격 방식의 한계를 극복하고, 보다 현실적이고 강력한 위협이 되는 사람이 읽을 수 있는 적대적 프롬프트를 이용한 공격 방법을 제시한다. 주요 기여는 영화 시나리오를 활용한 상황 기반 공격, 비논리적인 적대적 접미사를 의미있는 텍스트로 변환하는 기법, 그리고 다양하고 사람이 읽을 수 있는 적대적 접미사를 생성하여 GPT-3.5 및 Gemma 7B와 같은 모델의 공격 효율성을 향상시키는 AdvPrompter with p-nucleus sampling 기법 개발이다.