본 논문은 대규모 언어 모델(LLM)의 안전성을 강화하기 위해 의도 감지(intent detection)를 활용하는 기존 연구의 취약성을 조사합니다. 기존 연구는 의도 감지를 통해 LLM의 모더레이션 방어벽을 강화하여 콘텐츠 수준의 탈옥(jailbreak)에 상당한 성공을 거두었지만, 악의적인 조작 하에서 이러한 의도 인식 방어벽의 강건성은 충분히 탐구되지 않았습니다. 본 논문에서는 의도 기반 프롬프트 개선 프레임워크인 IntentPrompt를 제안합니다. IntentPrompt는 유해한 질문을 구조화된 개요로 변환한 후, 피드백 루프를 통해 프롬프트를 반복적으로 최적화하여 선언적 스타일의 서술로 재구성하여 적대적 테스트(red-teaming)를 위한 탈옥 성공률을 높입니다. 다양한 벤치마크와 여러 블랙박스 LLM에 대한 광범위한 실험을 통해 제안된 프레임워크가 최첨단 탈옥 방법들을 능가하고, 고급 의도 분석(IA) 및 사고연쇄(CoT) 기반 방어를 회피함을 보여줍니다. 특히, "FSTR+SPIN" 변형은 CoT 기반 방어에 대해 o1 모델에서 88.25%96.54%, IA 기반 방어에 대해 GPT-4o 모델에서 86.75%97.12%의 공격 성공률을 달성했습니다. 이러한 결과는 LLM의 안전 메커니즘의 심각한 취약점을 강조하고, 의도 조작이 콘텐츠 모더레이션 방어벽에 대한 점점 더 큰 과제임을 시사합니다.