본 논문은 대규모 언어 모델(LLM)의 안전성을 개선하기 위해, LLM의 취약점을 식별하는 데 중점을 둡니다. 특히, 공격자가 LLM의 안전 장치를 우회하는 "Jailbreak" 공격을 탐지하기 위한 새로운 메타 최적화 프레임워크인 AMIS(Align to MISalign)를 제안합니다. AMIS는 Jailbreak 프롬프트와 점수 템플릿을 공동 진화시키는 바이 레벨 구조를 활용하여, 기존 방식의 희소한 공격 성공률(ASR) 신호 및 수동으로 제작된 점수 템플릿의 한계를 극복합니다. AMIS는 fine-grained 피드백을 사용하여 프롬프트를 개선하고, ASR 정렬 점수를 사용하여 템플릿을 최적화하며, 이를 통해 강력한 Jailbreak 프롬프트와 정확한 점수 신호를 생성합니다. AdvBench 및 JBB-Behaviors 평가에서 AMIS는 Claude-3.5-Haiku에서 88.0% ASR, Claude-4-Sonnet에서 100.0% ASR을 달성하여, 기존 Baseline보다 뛰어난 성능을 보였습니다.