본 논문은 대규모 비전-언어 모델(LLVM)의 안전성 취약점을 공격하는 새로운 방법인 'Benign-to-Toxic (B2T)' jailbreak을 제안합니다. 기존의 Toxic-Continuation 방식은 이미 유해한 입력을 계속하는 데는 효과적이지만, 명시적인 유해 신호가 없는 경우 안전성 위반을 유발하는 데 어려움을 겪는다는 점을 발견했습니다. B2T jailbreak은 무해한 조건(benign conditioning)에서 유해한 출력을 유도하도록 적대적 이미지를 최적화합니다. 이는 무해한 입력만으로 모델의 안전 메커니즘을 깨뜨려야 하므로, 기존 방법보다 강력한 공격이 가능합니다. 블랙박스 환경에서도 효과적이며, 텍스트 기반 jailbreak을 보완하는 역할을 합니다. 이 연구는 다중 모달 정렬의 미탐색 취약성을 밝히고 jailbreak 접근 방식에 대한 근본적으로 새로운 방향을 제시합니다.