본 논문은 텍스트와 이미지를 모두 처리하는 다중 모달 대규모 언어 모델(MLLM)의 안전성 평가를 위한 새로운 벤치마크, MMSafeAware를 제시합니다. MMSafeAware는 29가지 안전성 시나리오와 1500개의 이미지-프롬프트 쌍으로 구성되어 있으며, 안전하지 않은 콘텐츠와 과도한 안전성(over-safety)을 모두 고려하여 모델의 안전 인식 능력을 평가합니다. 9개의 널리 사용되는 MLLM을 MMSafeAware로 평가한 결과, 기존 모델들은 안전성이 충분하지 않고 과민 반응을 보이는 경향이 있음을 밝혔습니다 (예: GPT-4V는 안전하지 않은 입력의 36.1%를 안전한 것으로, 안전한 입력의 59.9%를 안전하지 않은 것으로 잘못 분류). 프롬프트 기반 접근 방식, 시각적 대조 디코딩, 시각 중심 추론 미세 조정 등 세 가지 안전성 향상 방법을 탐색했지만, 만족할 만한 성능을 달성하지 못했습니다. 결론적으로, 강력한 안전 인식 능력을 갖춘 MLLM 개발에는 상당한 어려움이 있음을 강조하며, 향후 연구의 필요성을 제기합니다. 모든 코드와 데이터는 공개적으로 제공될 예정입니다.