본 논문은 비전-언어 모델(VLMs)의 안전성 정렬에 대한 연구를 다룹니다. 기존 연구가 주로 모델의 안전하지 않은 응답(undersafety)에 초점을 맞춘 반면, 본 논문은 안전한 질문에 대한 응답 거부(oversafety) 문제를 함께 고려하는 안전성 보정(safety calibration) 개념을 제시합니다. 이를 위해 시각적 또는 문맥적으로 유사하지만 안전성 측면에서 차이가 있는 3,600개의 이미지-텍스트 쌍으로 구성된 새로운 벤치마크 데이터셋 VSCBench를 제안합니다. VSCBench를 사용하여 11개의 널리 사용되는 VLMs의 안전성 보정을 평가한 결과, undersafety와 oversafety 모두에서 심각한 문제점을 발견했습니다. 또한, 모델의 안전성 보정을 개선하기 위한 네 가지 접근 방식을 조사하였고, 일부 방법이 모델의 안전성 문제를 효과적으로 보정했지만 유용성 저하를 야기하는 트레이드오프가 있음을 확인했습니다. 따라서 고급 보정 방법의 필요성을 강조하며, VSCBench를 향후 연구를 위한 유용한 도구로 제공합니다.
시사점, 한계점
•
시사점:
◦
안전성 보정(safety calibration)이라는 새로운 개념을 제시하여 VLMs의 안전성 문제를 보다 포괄적으로 다룸.
◦
안전성 보정을 평가하기 위한 새로운 벤치마크 데이터셋 VSCBench를 공개.
◦
기존 VLMs의 undersafety 및 oversafety 문제를 실험적으로 확인하고, 그 심각성을 제시.