Sign In

LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models

Created by
  • Haebom
Category
Empty

저자

Shi Lin, Hongming Yang, Dingyang Lin, Rongchang Li, Xun Wang, Changting Lin, Wenpeng Xing, Meng Han

개요

본 논문은 대규모 언어 모델(LLM)의 안전 취약성, 특히 탈옥 공격에 대한 취약성을 다룬다. 기존의 탈옥 방법은 복잡한 프롬프트 엔지니어링과 반복적인 최적화에 의존하여 공격 성공률(ASR)과 공격 효율성(AE)이 낮다는 한계를 지닌다. 이에 본 논문에서는 LLM의 고급 추론 능력을 활용하여 유해 콘텐츠를 자율적으로 생성하는 효율적인 탈옥 공격 방법인 분석 기반 탈옥(ABJ)을 제안한다. 다양한 오픈소스 및 클로즈드소스 LLM을 대상으로 실험을 수행한 결과, ABJ는 높은 ASR(GPT-4o-2024-11-20에서 82.1%)과 뛰어난 AE를 달성하여 그 효과, 전이성 및 효율성을 입증하였다. 이는 LLM의 안전성 향상의 시급성을 강조한다.

시사점, 한계점

시사점:
LLM의 안전 취약성, 특히 탈옥 공격에 대한 취약성을 효과적으로 공격하는 새로운 방법(ABJ) 제시
기존 방법보다 높은 공격 성공률(ASR)과 효율성(AE) 달성
ABJ의 높은 전이성 확인
LLM의 안전성 향상의 시급성을 강조
한계점:
ABJ의 윤리적 함의 및 악용 가능성에 대한 논의 부족
특정 LLM 버전에 대한 결과만 제시, 다른 버전이나 모델에 대한 일반화 가능성 제한
ABJ에 대한 방어 기법 및 완화 전략에 대한 논의 부족
👍