Sign In

PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs

Created by
  • Haebom
Category
Empty

저자

Xueluan Gong, Mingzhe Li, Yilin Zhang, Fengyuan Ran, Chen Chen, Yanjiao Chen, Qian Wang, Kwok-Yan Lam

개요

본 논문은 대규모 언어 모델(LLM)의 탈옥 공격(jailbreaking attack)에 대한 새로운 자동화된 블랙박스 공격 프레임워크인 PAPILLON을 제시합니다. 기존의 수동으로 작성된 템플릿에 의존하는 방법과 달리, PAPILLON은 빈 시드 풀에서 시작하여 어떠한 관련 탈옥 템플릿도 필요하지 않습니다. LLM 헬퍼를 이용한 세 가지 새로운 질문 종속적 변이 전략을 통해 의미적으로 일관성을 유지하면서 프롬프트 길이를 크게 줄입니다. 또한, 성공적인 탈옥 공격을 정확하게 감지하는 2단계 판정 모듈을 구현했습니다. 7개의 대표적인 LLM을 대상으로 평가한 결과, GPT-3.5 turbo, GPT-4, Gemini-Pro 등에서 기존 방법보다 60% 이상 높은 성공률을 달성했습니다. 특히 GPT-4의 경우, 100토큰으로도 78% 이상의 성공률을 달성했습니다. 또한, PAPILLON은 전이성과 최첨단 방어에 대한 강건성을 보여줍니다.

시사점, 한계점

시사점:
기존 수동 템플릿 기반 탈옥 공격의 한계를 극복하는 자동화된 블랙박스 공격 프레임워크 제시
의미적으로 일관성 있는 짧은 프롬프트 생성을 통해 효율성 및 탐지 회피 향상
GPT-3.5 turbo, GPT-4, Gemini-Pro 등 주요 LLM에 대해 높은 성공률 달성
100토큰 이하의 짧은 프롬프트를 사용하여 높은 성공률 유지
전이성 및 최첨단 방어에 대한 강건성 입증
한계점:
구체적인 한계점에 대한 논의 부재 (논문에서 명시적으로 언급되지 않음)
특정 LLM에 대한 과도한 최적화 가능성 (일부 LLM에 대해서는 다른 LLM보다 높은 성공률을 보임)
장기적인 관점에서의 LLM 방어 메커니즘 발전에 대한 고려 부족 (새로운 방어 메커니즘에 대한 적응성은 추가 연구 필요)
👍