Sign In

DualBreach: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization

Created by
  • Haebom
Category
Empty

저자

Xinzhe Huang, Kedong Xiu, Tianhang Zheng, Churui Zeng, Wangze Ni, Zhan Qiin, Kui Ren, Chun Chen

개요

본 논문은 대규모 언어 모델(LLM)과 그 안전 장치인 가드레일을 동시에 우회하는 공격인 이중 탈옥(dual-jailbreaking)에 대한 연구를 다룹니다. 기존 연구의 한계를 극복하기 위해, 목표 지향적인 이중 탈옥 프레임워크인 DualBreach를 제안합니다. DualBreach는 목표 지향적 초기화(TDI) 전략과 다중 목표 최적화(MTO) 방법을 사용하여 가드레일과 LLM을 동시에 조작하여 효율적으로 이중 탈옥을 수행합니다. 블랙박스 가드레일의 경우, 오픈소스 가드레일을 활용하거나 프록시 모델을 학습하여 MTO 과정에 통합합니다. 실험 결과, DualBreach는 기존 최첨단 방법보다 적은 쿼리 수로 더 높은 성공률(GPT-4와 Llama-Guard-3 조합에서 평균 93.67%)을 달성했습니다. 또한, 방어 메커니즘으로 여러 가드레일을 통합한 XGBoost 기반 앙상블 방어 메커니즘인 EGuard를 제안하고, Llama-Guard-3보다 우수한 성능을 보임을 보였습니다.

시사점, 한계점

시사점:
LLM과 가드레일을 동시에 우회하는 이중 탈옥 공격에 대한 효과적인 프레임워크인 DualBreach 제시.
기존 방법보다 적은 쿼리 수로 더 높은 성공률을 달성.
블랙박스 가드레일 공격에 대한 효과적인 해결책 제시.
강화된 가드레일 시스템인 EGuard 제안.
한계점:
DualBreach의 효과는 사용된 LLM과 가드레일의 특성에 따라 달라질 수 있음.
EGuard의 성능은 사용된 가드레일의 종류와 품질에 의존적임.
새로운 가드레일 방어 기법이 등장함에 따라 DualBreach의 효과가 감소될 가능성 존재.
DualBreach가 악용될 가능성에 대한 윤리적 고려 필요.
👍