Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Aashray Reddy, Andrew Zagula, Nicholas Saban, Kevin Zhu

개요

본 논문은 대규모 언어 모델(LLM)이 악의적인 프롬프트에 취약하며, 특히 실제 공격이 여러 턴의 대화로 진행된다는 점에 주목합니다. 이를 해결하기 위해 AutoAdv라는 훈련이 필요 없는 자동화된 멀티턴 jailbreaking 프레임워크를 제시합니다. AutoAdv는 성공적인 공격으로부터 학습하는 패턴 관리자, 실패 모드에 따라 샘플링 매개변수를 조정하는 온도 관리자, 유해한 요청을 위장하고 반복적으로 개선하는 2단계 재작성 전략을 결합하여 Llama-3.1-8B에서 최대 95%의 공격 성공률을 달성합니다.

시사점, 한계점

AutoAdv는 멀티턴 공격 성공률을 향상시켜 단일 턴 접근 방식의 한계를 극복했습니다.
상업용 및 오픈 소스 모델(GPT-4o-mini, Qwen3-235B, Mistral-7B)에 대한 광범위한 평가를 통해 현재 안전 메커니즘의 취약성을 보여주었습니다.
멀티턴 공격이 단일 턴 접근 방식보다 일관되게 성능이 우수함을 입증했습니다.
단일 턴 상호 작용에 최적화된 정렬 전략이 확장된 대화에서 견고성을 유지하는 데 실패한다는 것을 강조합니다.
멀티턴 인식 방어의 시급한 필요성을 강조합니다.
👍