다양한 시각적 추론 작업에 다중 모달 대규모 언어 모델(MLLM)이 널리 배포됨에 따라 안전성 향상이 중요해졌습니다. 본 연구는 안전성 훈련만으로는 탈옥 공격에 취약하다는 점을 강조합니다. 이에 본 논문에서는 제어된 디코딩을 통해 안전한 보상 모델을 활용하는 추론 시간 방어 프레임워크인 Immune을 제안합니다. Immune의 수학적 특성을 분석하여 탈옥 공격에 대한 안전성 향상 이유를 설명하고, 다양한 탈옥 벤치마크에 대한 광범위한 평가를 통해 모델 안전성을 효과적으로 향상시키면서 원래 기능을 유지함을 보여줍니다. 예를 들어, LLaVA-1.6에 대한 텍스트 기반 탈옥 공격에 대해 Immune은 기본 MLLM과 최첨단 방어 전략에 비해 공격 성공률을 각각 57.82%와 16.78% 감소시켰습니다.
시사점, 한계점
•
시사점:
◦
안전성 훈련만으로는 MLLM의 탈옥 공격 방어에 충분하지 않다는 것을 보여줌.
◦
추론 시간 방어 프레임워크 Immune을 통해 MLLM의 안전성을 효과적으로 향상시킬 수 있음을 증명.