본 논문은 시각적 추론 작업을 위한 다중 모달 대규모 언어 모델(MLLM)의 광범위한 배포에 따라 안전성 향상이 중요해짐을 다룹니다. 기존 연구에서 안전성을 위한 훈련에도 불구하고 MLLM이 탈옥 공격에 취약하다는 점을 지적하며, 안전성 훈련만으로는 탈옥 공격에 대한 충분한 방어가 되지 않는다는 안전성 격차를 강조합니다. 이에 본 논문은 제어된 디코딩을 통해 안전한 보상 모델을 활용하는 추론 시 방어 프레임워크인 'Immune'을 제안합니다. 'Immune'의 수학적 특성을 제시하여 탈옥 공격에 대한 안전성 향상 원리를 설명하고, 다양한 탈옥 벤치마크에 대한 광범위한 평가를 통해 'Immune'이 모델 안전성을 효과적으로 향상시키면서 원래 기능을 유지함을 보여줍니다. 예를 들어, LLaVA-1.6에 대한 텍스트 기반 탈옥 공격에서 'Immune'은 기본 MLLM 및 최첨단 방어 전략과 비교하여 공격 성공률을 각각 57.82% 및 16.78% 감소시켰습니다.
시사점, 한계점
•
시사점:
◦
MLLM의 안전성 훈련만으로는 탈옥 공격에 대한 충분한 방어가 불가능함을 보여줌.
◦
추론 시 방어 프레임워크 'Immune'이 MLLM의 탈옥 공격 방어에 효과적임을 실험적으로 증명.
◦
'Immune'이 모델의 안전성을 향상시키면서 기능성을 유지함을 보임.
◦
'Immune'의 수학적 분석을 통해 안전성 향상 원리를 제공.
•
한계점:
◦
'Immune'의 효과는 사용된 MLLM과 벤치마크에 따라 달라질 수 있음. 다양한 MLLM과 탈옥 공격 유형에 대한 추가적인 연구가 필요.
◦
'Immune'의 계산 비용 및 성능 오버헤드에 대한 자세한 분석이 필요.
◦
새로운 유형의 탈옥 공격에 대한 'Immune'의 일반화 성능에 대한 추가적인 검증이 필요.