본 논문은 대규모 언어 모델(LLM)의 탈옥 공격(jailbreaking attack)에 대한 새로운 자동화된 블랙박스 공격 프레임워크인 PAPILLON을 제시합니다. 기존의 수동으로 작성된 템플릿에 의존하는 방법과 달리, PAPILLON은 빈 시드 풀에서 시작하여 어떠한 관련 탈옥 템플릿도 필요하지 않습니다. LLM 헬퍼를 이용한 세 가지 새로운 질문 종속적 변이 전략을 통해 의미적으로 일관성을 유지하면서 프롬프트 길이를 크게 줄입니다. 또한, 성공적인 탈옥 공격을 정확하게 감지하는 2단계 판정 모듈을 구현했습니다. 7개의 대표적인 LLM을 대상으로 평가한 결과, GPT-3.5 turbo, GPT-4, Gemini-Pro 등에서 기존 방법보다 60% 이상 높은 성공률을 달성했습니다. 특히 GPT-4의 경우, 100토큰으로도 78% 이상의 성공률을 달성했습니다. 또한, PAPILLON은 전이성과 최첨단 방어에 대한 강건성을 보여줍니다.