LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models
Created by
Haebom
Category
Empty
저자
Shi Lin, Hongming Yang, Dingyang Lin, Rongchang Li, Xun Wang, Changting Lin, Wenpeng Xing, Meng Han
개요
본 논문은 대규모 언어 모델(LLM)의 안전 취약성, 특히 탈옥 공격에 대한 취약성을 다룬다. 기존의 탈옥 방법은 복잡한 프롬프트 엔지니어링과 반복적인 최적화에 의존하여 공격 성공률(ASR)과 공격 효율성(AE)이 낮다는 한계를 지닌다. 이에 본 논문에서는 LLM의 고급 추론 능력을 활용하여 유해 콘텐츠를 자율적으로 생성하는 효율적인 탈옥 공격 방법인 분석 기반 탈옥(ABJ)을 제안한다. 다양한 오픈소스 및 클로즈드소스 LLM을 대상으로 실험을 수행한 결과, ABJ는 높은 ASR(GPT-4o-2024-11-20에서 82.1%)과 뛰어난 AE를 달성하여 그 효과, 전이성 및 효율성을 입증하였다. 이는 LLM의 안전성 향상의 시급성을 강조한다.
시사점, 한계점
•
시사점:
◦
LLM의 안전 취약성, 특히 탈옥 공격에 대한 취약성을 효과적으로 공격하는 새로운 방법(ABJ) 제시