Sign In

Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring

Created by
  • Haebom
Category
Empty

저자

Honglin Mu, Han He, Yuxin Zhou, Yunlong Feng, Yang Xu, Libo Qin, Xiaoming Shi, Zeming Liu, Xudong Han, Qi Shi, Qingfu Zhu, Wanxiang Che

개요

본 논문은 대규모 언어 모델(LLM)의 안전성을 강화하기 위한 새로운 공격 기법을 제안합니다. 기존의 탈옥(jailbreak) 공격 방식은 악의적인 프롬프트를 반복적으로 제출하여 모델의 취약점을 찾지만, 이 과정에서 악의적인 의도가 감지될 위험이 있습니다. 본 논문에서는 표적 모델의 미러 모델을 양성 데이터를 통해 학습시켜 악의적인 프롬프트를 생성하는 전이 공격 방식을 제안합니다. 이 방법은 악의적인 지시어를 표적 모델에 직접 제출하지 않아 탐지 가능성을 낮춥니다. GPT-3.5 Turbo를 대상으로 한 실험 결과, 최대 92%의 공격 성공률을 달성하였습니다.

시사점, 한계점

시사점:
기존 탈옥 공격의 한계점인 탐지 가능성을 낮춘 새로운 전이 공격 기법 제시
잠재적으로 더욱 정교하고 은밀한 LLM 공격 가능성을 시사
더욱 강력한 LLM 안전 방어 메커니즘 개발의 필요성 강조
한계점:
제안된 방법의 효과는 특정 데이터셋(AdvBench의 하위 집합)과 모델(GPT-3.5 Turbo)에 대한 실험 결과에 국한됨
다양한 LLM과 더 광범위한 공격 시나리오에 대한 추가 연구 필요
미러 모델 학습에 필요한 양성 데이터의 크기 및 질에 대한 의존성 존재
👍