STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models
Created by
Haebom
Category
Empty
저자
Xunguang Wang, Wenxuan Wang, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang
개요
본 논문은 대규모 언어 모델(LLM)의 안전 메커니즘을 우회하는 탈옥 공격에 대한 새로운 방어 프레임워크인 STShield를 제안합니다. STShield는 모델의 응답 시퀀스에 이진 안전 지표를 추가하는 단일 토큰 센티넬 메커니즘을 도입하여 LLM의 자체 정렬 기능을 활용하여 탈옥 공격을 탐지합니다. 정상적인 프롬프트에 대한 지도 학습 미세 조정과 임베딩 공간 섭동을 사용한 적대적 훈련을 결합하여 모델의 유용성을 유지하면서 강력한 탐지를 달성합니다. 광범위한 실험을 통해 STShield가 다양한 탈옥 공격으로부터 성공적으로 방어하고 합법적인 질문에 대한 모델 성능을 유지함을 보여줍니다. 기존 접근 방식과 비교하여 STShield는 최소한의 계산 오버헤드로 우수한 방어 성능을 달성하여 실제 LLM 배포에 실용적인 솔루션이 됩니다.
시사점, 한계점
•
시사점:
◦
경량의 실시간 탈옥 판단 프레임워크인 STShield를 제시하여 기존 방어 메커니즘의 한계를 극복.
◦
단일 토큰 센티넬 메커니즘을 통해 계산 비용을 최소화하면서 효과적인 탈옥 공격 방어를 제공.