본 논문은 다중 모달 대규모 언어 모델(MLLM)의 안전 메커니즘 취약성을 다룹니다. 기존의 탈옥 공격(jailbreak attack) 방법들은 복잡한 최적화 기법이나 신중하게 설계된 이미지 및 텍스트 프롬프트를 통해 안전 메커니즘을 우회하지만, 상용 폐쇄형 MLLM에 대한 공격 성공률이 낮다는 한계가 있습니다. 본 논문에서는 MLLM의 이해 능력과 안전 능력 간의 셔플 불일치(Shuffle Inconsistency) 현상을 발견하였습니다. 즉, MLLM은 셔플된 유해 지시문을 잘 이해하지만(이해 능력), 동시에 셔플된 유해 지시문에 의해 안전 메커니즘이 쉽게 우회될 수 있습니다(안전 능력). 이를 이용하여 텍스트-이미지 탈옥 공격 기법인 SI-Attack을 제안합니다. SI-Attack은 셔플 불일치를 활용하고, 독성 판정 모델의 피드백을 기반으로 쿼리 기반 블랙박스 최적화 기법을 적용하여 가장 유해한 셔플된 입력을 선택합니다. 실험 결과, SI-Attack은 세 가지 벤치마크에서 공격 성능을 향상시켰으며, 특히 GPT-4o나 Claude-3.5-Sonnet과 같은 상용 MLLM에 대한 공격 성공률을 크게 높였습니다.
시사점, 한계점
•
시사점:
◦
MLLM의 안전 메커니즘에 대한 새로운 취약점인 셔플 불일치 현상을 발견하고, 이를 활용한 효과적인 탈옥 공격 기법(SI-Attack)을 제시했습니다.
◦
기존 방법보다 상용 MLLM에 대한 공격 성공률을 향상시켰습니다.
◦
MLLM의 안전성 강화를 위한 새로운 연구 방향을 제시합니다.
•
한계점:
◦
SI-Attack의 효과는 독성 판정 모델의 성능에 의존적일 수 있습니다.
◦
특정 유형의 MLLM에 대해서만 효과적일 가능성이 있습니다. 더 다양한 MLLM에 대한 실험이 필요합니다.