본 논문은 시각-언어 모델(VLMs)의 안전성 향상을 위한 기존 접근 방식의 두 가지 주요 단점, 즉 1) 기존 안전 조정 데이터셋 및 벤치마크가 이미지-텍스트 상호작용으로 인한 유해 콘텐츠를 부분적으로만 고려하고, 겉보기에는 무해한 쌍에서 상황에 따른 안전하지 않은 결과를 종종 간과한다는 점과 2) 이전 방법이 주로 데이터 중심 조정에 의존하고, 안전성을 본질적으로 강화하기 위한 아키텍처 혁신이 제한적이라는 점을 다룹니다. 이를 해결하기 위해, 본 논문에서는 다섯 가지 안전/불안전 이미지-텍스트 조합을 모두 포함하는 포괄적인 안전 데이터셋 및 벤치마크인 HoliSafe를 제시하고, 학습 가능한 안전 메타 토큰과 전용 안전 헤드를 추가한 새로운 VLM인 SafeLLaVA를 제안합니다. 메타 토큰은 훈련 중 유해한 시각적 단서를 인코딩하여 언어 모델을 더 안전한 응답으로 유도하고, 안전 헤드는 거부 이유와 일치하는 해석 가능한 유해성 분류를 제공합니다. 실험 결과, HoliSafe로 훈련된 SafeLLaVA는 여러 VLM 벤치마크에서 최첨단 안전 성능을 달성하며, HoliSafe 벤치마크 자체는 기존 모델의 중요한 취약성을 드러냅니다.