Machine Learning for Detection and Analysis of Novel LLM Jailbreaks
Created by
Haebom
저자
John Hawkins, Aditya Pramar, Rodney Beard, Rohitash Chandra
개요
대규모 언어 모델(LLM)은 입력 텍스트 조작을 통해 악의적인 사용자가 원치 않는 응답을 유도할 수 있는 취약점을 가지고 있다. 이러한 jailbreak 프롬프트는 개발자의 정책에 따라 응답을 허용 가능한 상태로 유지하기 위해 마련된 안전 가드레일을 우회하도록 LLM을 속이도록 설계되었다. 본 연구에서는 서로 다른 머신 러닝 모델이 기존에 보지 못한 전략을 사용하는 jailbreak을 포함하여 jailbreak 프롬프트를 실제 사용과 구별하는 능력을 분석한다. 결과는 현재 데이터 세트를 사용하여 jailbreak을 식별하기 위해 양방향 변환기(BERT) 모델을 end-to-end 방식으로 미세 조정하는 것이 최고의 성능을 달성한다는 것을 나타낸다. jailbreak과 실제 프롬프트를 구별하는 키워드를 시각화하고 프롬프트 구조의 명시적인 반사성이 jailbreak 의도의 신호일 수 있다고 결론을 내린다.
시사점, 한계점
•
BERT 모델의 fine-tuning이 jailbreak 프롬프트 식별에 가장 효과적인 성능을 보임
•
프롬프트 구조의 명시적인 반사성이 jailbreak 의도를 나타낼 수 있음
•
연구는 현재 데이터셋에 기반하여 수행되었으며, 새로운 jailbreak 전략에 대한 일반화 가능성은 제한적일 수 있음