다양한 시각적 추론 작업에 다중 모드 대규모 언어 모델(MLLM)이 널리 배포됨에 따라, 안전성 향상이 매우 중요해졌습니다. 최근 연구에 따르면, 훈련 시간 안전 정렬에도 불구하고 이러한 모델은 탈옥 공격에 취약한 것으로 나타났습니다. 본 연구는 먼저 안전 훈련을 통해 달성된 정렬만으로는 탈옥 공격에 대한 방어가 불충분할 수 있음을 보여주는 중요한 안전성 격차를 강조합니다. 이러한 취약성을 해결하기 위해, 본 연구는 제어된 디코딩을 통해 안전한 보상 모델을 활용하여 탈옥 공격으로부터 방어하는 추론 시간 방어 프레임워크인 Immune을 제안합니다. 또한, Immune의 수학적 특성을 제공하여 탈옥에 대한 안전성을 향상시키는 이유에 대한 통찰력을 제공합니다. 최근 MLLM을 사용한 다양한 탈옥 벤치마크에 대한 광범위한 평가는 Immune이 모델의 원래 기능을 유지하면서 모델 안전성을 효과적으로 향상시킨다는 것을 보여줍니다. 예를 들어, LLaVA-1.6에 대한 텍스트 기반 탈옥 공격에 대해 Immune은 기본 MLLM 및 최첨단 방어 전략과 비교하여 공격 성공률을 각각 57.82% 및 16.78% 감소시킵니다.
시사점, 한계점
•
시사점:
◦
다중 모드 대규모 언어 모델의 안전성 향상을 위한 새로운 방어 프레임워크인 Immune 제시.
◦
훈련 시간 안전 정렬의 한계를 보여주고, 추론 시간 방어의 중요성을 강조.
◦
Immune은 탈옥 공격 성공률을 효과적으로 감소시키는 동시에 모델의 원래 기능을 유지.
◦
Immune의 수학적 특성 분석을 통해 안전성 향상의 이유를 설명.
•
한계점:
◦
Immune의 효과는 특정 MLLM과 탈옥 공격 유형에 따라 달라질 수 있음. 더 다양한 MLLM과 탈옥 공격에 대한 추가적인 평가가 필요.