Sign In

Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints

Created by
  • Haebom
Category
Empty

저자

Junxiao Yang, Zhexin Zhang, Shiyao Cui, Hongning Wang, Minlie Huang

개요

본 논문은 대규모 언어 모델(LLM)의 안전하지 않은 행동을 유도하는 탈옥 공격 중, 특히 백색 상자 모델 공격에 사용되는 기울기 기반 탈옥 방법의 전이성을 향상시키는 연구이다. 기울기 기반 최적화 과정 분석을 통해 전이성을 저해하는 제약 조건(응답 패턴 제약 및 토큰 꼬리 제약)을 밝히고, 이를 제거함으로써 기울기 기반 공격의 전이성과 제어성을 크게 향상시켰다. Llama-3-8B-Instruct를 소스 모델로 사용하여 다양한 안전 수준의 여러 타겟 모델에 대한 전이 공격 성공률(T-ASR)을 18.4%에서 50.3%로 높였다.

시사점, 한계점

시사점: 기울기 기반 탈옥 공격의 전이성을 향상시키는 새로운 방법을 제시하여, 다양한 LLM에 대한 안전성 평가 및 방어 기술 개발에 기여한다. 불필요한 제약 조건 제거를 통해 공격의 성공률과 제어성을 높였다는 점이 중요한 시사점이다.
한계점: 본 연구는 특정 소스 모델(Llama-3-8B-Instruct)과 제한된 타겟 모델 세트에 대한 실험 결과를 기반으로 한다. 따라서 다른 소스 모델이나 더 광범위한 타겟 모델에 대한 일반화 가능성은 추가 연구가 필요하다. 또한, 실제 세계 환경에서의 공격 성공률과 그 영향에 대한 추가적인 검증이 필요하다.
👍