Jailbreak-R1: Exploring the Jailbreak Capabilities of LLMs via Reinforcement Learning
Created by
Haebom
저자
Weiyang Guo, Zesheng Shi, Zhuo Li, Yequan Wang, Xuebo Liu, Wenya Wang, Fangming Liu, Min Zhang, Jing Li
개요
본 논문은 대규모 언어 모델(LLM)의 안전성을 확보하고 유해한 출력을 방지하기 위해 강화 학습 기반의 자동화된 적대적 테스트(red teaming) 프레임워크를 제안합니다. 기존 방법들의 효과성과 다양성 간의 균형 문제를 해결하기 위해, 세 단계의 학습 과정(Cold Start, Warm-up Exploration, Enhanced Jailbreak)을 통해 적대적 공격 프롬프트를 생성하는 모델을 제시합니다. Cold Start 단계에서는 모방 학습을 통해 얻은 데이터셋으로 모델을 미세 조정하고, Warm-up Exploration 단계에서는 다양성과 일관성을 보상 신호로 사용하여 탈옥(jailbreak) 명령어를 따르고 탐색하도록 학습시킵니다. 마지막 Enhanced Jailbreak 단계에서는 점진적인 탈옥 보상을 도입하여 모델의 탈옥 성능을 향상시킵니다. 다양한 LLM에 대한 실험 결과, 제안된 방법이 기존 방법들에 비해 탈옥 프롬프트의 다양성과 효과성 측면에서 균형을 효과적으로 맞춘다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
강화 학습을 활용하여 LLM의 안전성 평가 효율을 크게 향상시킬 수 있는 새로운 자동화된 적대적 테스트 프레임워크를 제시합니다.