Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models

작성자

Haebom

카테고리

Empty

저자

Xiao Li, Wei Zhang, Zhuhong Li, Qiongxiu Li, Shei PernChua, BingZe Lee, Jinghao Cui, Yifan Huang, Xiaolin Hu

💡 개요

본 논문은 정렬된 대규모 언어 모델(LLM)을 대상으로 하는 자동화된 탈옥 공격 방법인 GCG(Greedy Coordinate Gradient)의 낮은 샘플 효율성 문제를 해결하기 위해 Faster-GCG를 제안합니다. Faster-GCG는 부정확한 기울기 추정, 비효율적인 샘플링, 반복적인 접미사 평가를 개선하여 샘플 효율성을 최대 8배 향상시키고 계산 시간을 7배 단축했습니다. 이를 통해 5개의 LLM에서 평균 78.1%의 탈옥 성공률을 달성하며, Qwen3.5-4B 모델에는 88.7%의 성공률을 기록하여 최신 화이트박스 탈옥 방법론을 능가했습니다.

🔑 시사점 및 한계

•

Faster-GCG는 기존 GCG 공격의 샘플 효율성을 획기적으로 개선하여 실제 환경에서의 LLM 탈옥 공격 가능성을 높였습니다.

•

제안된 기법(거리 기반 정규화, 온도 제어 샘플링, 방문 접미사 표시)은 이산적인 최적화 문제 해결에 효과적인 새로운 접근 방식을 제시합니다.

•

본 연구는 LLM의 안전성을 위협하는 탈옥 공격에 대한 효과적인 방어 전략 개발의 필요성을 다시 한번 강조합니다.

•

Faster-GCG의 성공률은 여전히 100%가 아니며, 특정 모델이나 공격 시나리오에 따라 성능이 달라질 수 있습니다. 향후 더 다양한 모델과 공격 환경에서의 검증 및 방어 기법 연구가 필요합니다.

PDF 보기

Made with Slashpage