X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability
Created by
Haebom
Category
Empty
저자
Xiaoya Lu, Dongrui Liu, Yi Yu, Luxin Xu, Jing Shao
개요
본 논문은 대규모 언어 모델(LLM)의 안전 정렬 기술 발전에도 불구하고, 다회차 탈옥 공격에 대한 방어가 여전히 어려운 과제임을 지적합니다. 기존 방어 기법들이 다회차 탈옥 공격에 대한 LLM의 강건성을 향상시키지만, 사용성(일반적인 기능 저하 또는 과도한 거부 문제)을 저해할 수 있음을 종합적으로 비교 분석합니다. LLM의 메커니즘 해석성 관점에서, 기존 기법들이 안전한 특징과 유해한 특징 표현을 정확하게 구분하는 경계를 설정하지 못함을 발견하고, 이로 인해 유해한 표현에 가까운 경계 안전 표현이 불가피하게 손상되어 사용성이 저하되는 문제를 제기합니다. 이를 해결하기 위해, 유해한 표현을 경계 안전 표현으로부터 멀리 밀어내 정확한 구분 경계를 얻는 X-Boundary를 제안합니다. 실험 결과, X-Boundary는 다회차 탈옥 공격에 대한 최첨단 방어 성능을 달성하면서 과도한 거부율을 약 20% 감소시키고 거의 완벽한 일반적인 기능을 유지합니다. 또한, X-Boundary가 훈련 중 수렴 과정을 가속화할 수 있음을 이론적으로 증명하고 실험적으로 검증합니다. 소스 코드는 https://github.com/AI45Lab/X-Boundary 에서 확인할 수 있습니다.