Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring
Created by
Haebom
Category
Empty
저자
Honglin Mu, Han He, Yuxin Zhou, Yunlong Feng, Yang Xu, Libo Qin, Xiaoming Shi, Zeming Liu, Xudong Han, Qi Shi, Qingfu Zhu, Wanxiang Che
개요
본 논문은 대규모 언어 모델(LLM)의 안전성을 강화하기 위한 새로운 공격 기법을 제안합니다. 기존의 탈옥(jailbreak) 공격 방식은 악의적인 프롬프트를 반복적으로 제출하여 모델의 취약점을 찾지만, 이 과정에서 악의적인 의도가 감지될 위험이 있습니다. 본 논문에서는 표적 모델의 미러 모델을 양성 데이터를 통해 학습시켜 악의적인 프롬프트를 생성하는 전이 공격 방식을 제안합니다. 이 방법은 악의적인 지시어를 표적 모델에 직접 제출하지 않아 탐지 가능성을 낮춥니다. GPT-3.5 Turbo를 대상으로 한 실험 결과, 최대 92%의 공격 성공률을 달성하였습니다.
시사점, 한계점
•
시사점:
◦
기존 탈옥 공격의 한계점인 탐지 가능성을 낮춘 새로운 전이 공격 기법 제시
◦
잠재적으로 더욱 정교하고 은밀한 LLM 공격 가능성을 시사
◦
더욱 강력한 LLM 안전 방어 메커니즘 개발의 필요성 강조
•
한계점:
◦
제안된 방법의 효과는 특정 데이터셋(AdvBench의 하위 집합)과 모델(GPT-3.5 Turbo)에 대한 실험 결과에 국한됨