Sign In

Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges

Created by
  • Haebom
Category
Empty

저자

Hamin Koo, Minseon Kim, Jaehyung Kim

개요

본 논문은 대규모 언어 모델(LLM)의 안전성을 개선하기 위해, LLM의 취약점을 식별하는 데 중점을 둡니다. 특히, 공격자가 LLM의 안전 장치를 우회하는 "Jailbreak" 공격을 탐지하기 위한 새로운 메타 최적화 프레임워크인 AMIS(Align to MISalign)를 제안합니다. AMIS는 Jailbreak 프롬프트와 점수 템플릿을 공동 진화시키는 바이 레벨 구조를 활용하여, 기존 방식의 희소한 공격 성공률(ASR) 신호 및 수동으로 제작된 점수 템플릿의 한계를 극복합니다. AMIS는 fine-grained 피드백을 사용하여 프롬프트를 개선하고, ASR 정렬 점수를 사용하여 템플릿을 최적화하며, 이를 통해 강력한 Jailbreak 프롬프트와 정확한 점수 신호를 생성합니다. AdvBench 및 JBB-Behaviors 평가에서 AMIS는 Claude-3.5-Haiku에서 88.0% ASR, Claude-4-Sonnet에서 100.0% ASR을 달성하여, 기존 Baseline보다 뛰어난 성능을 보였습니다.

시사점, 한계점

시사점:
AMIS는 LLM Jailbreak 공격에 대한 방어 기술을 발전시키고 LLM의 안전성을 향상시킬 수 있는 잠재력을 제시합니다.
공격 프롬프트와 점수 템플릿을 공동 진화시키는 새로운 접근 방식을 통해, 기존 Jailbreak 공격 탐지의 한계를 극복했습니다.
다양한 LLM 모델에 대한 높은 공격 성공률을 달성하여, 실질적인 위협을 시사합니다.
한계점:
논문에서 사용된 특정 LLM 모델 및 벤치마크에 대한 결과이므로, 다른 모델 및 환경에서의 일반화 가능성을 추가적으로 검증해야 합니다.
AMIS의 최적화 과정에 대한 추가적인 분석 및 설명이 필요할 수 있습니다.
본 연구가 LLM의 모든 취약점을 해결하지는 않으므로, 지속적인 연구와 개선이 필요합니다.
👍