JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs
Created by
Haebom
저자
Junjie Chu, Yugeng Liu, Ziqing Yang, Xinyue Shen, Michael Backes, Yang Zhang
개요
본 논문은 다양한 LLM 탈옥 공격에 대한 대규모 평가를 제시합니다. 17가지 대표적인 탈옥 공격을 수집하여 특징을 요약하고 새로운 탈옥 공격 분류 체계를 수립했습니다. 9개의 정렬된 LLM과 16개 위반 범주에 속한 160개의 금지 질문을 사용하여 포괄적인 측정 및 ablation 연구를 수행했습니다. 또한 8가지 고급 방어 메커니즘 하에서 탈옥 공격을 테스트했습니다. 이를 통해 휴리스틱 기반 공격은 높은 성공률을 달성하지만 방어에 의해 쉽게 완화되어 실용성이 낮다는 등의 중요한 패턴을 확인했습니다. 본 연구는 탈옥 공격 및 방어에 대한 향후 연구에 귀중한 통찰력을 제공하며, 중복 연구를 피하고 실무자를 위한 효과적인 벤치마크 도구 역할을 할 것으로 기대됩니다.