Sign In

AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Aashray Reddy, Andrew Zagula, Nicholas Saban

개요

본 논문은 대규모 언어 모델(LLM)이 악의적인 프롬프트를 통해 유해한 출력을 생성하도록 유도하는 탈옥 공격에 취약하다는 점에 주목하여, 실제 공격이 적응적인 다단계 대화로 전개된다는 점을 고려, 훈련이 필요 없는 자동화된 다단계 탈옥 프레임워크인 AutoAdv를 제안합니다. AutoAdv는 최대 95%의 공격 성공률을 달성하며, 단일 턴 기준 대비 24% 향상을 보입니다. AutoAdv는 성공적인 공격으로부터 학습하여 향후 프롬프트를 개선하는 패턴 관리자, 실패 모드에 따라 샘플링 매개변수를 동적으로 조정하는 온도 관리자, 유해한 요청을 위장한 후 반복적으로 개선하는 2단계 재작성 전략 등 세 가지 적응 메커니즘을 결합합니다. 상용 및 오픈 소스 모델(GPT-4o-mini, Qwen3-235B, Mistral-7B)에 대한 광범위한 평가를 통해 다단계 공격이 단일 턴 접근 방식보다 지속적으로 우수한 성능을 보이며, 현재 안전 메커니즘의 지속적인 취약성을 보여줍니다.

시사점, 한계점

시사점:
단일 턴 상호 작용에 최적화된 정렬 전략은 확장된 대화에서 견고성을 유지하지 못합니다.
AutoAdv는 훈련 없이 다단계 탈옥 공격에서 높은 성공률을 달성합니다.
다단계 공격은 단일 턴 공격보다 지속적으로 더 강력합니다.
현재 안전 메커니즘의 취약성을 보여주며, 다단계 인식 방어의 시급성을 강조합니다.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (제공된 정보 내에서는 알 수 없음)
👍