HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model
Created by
Haebom
Category
Empty
저자
Youngwan Lee, Kangsan Kim, Kwanyong Park, Ilcahe Jung, Soojin Jang, Seanie Lee, Yong-Ju Lee, Sung Ju Hwang
HoliSafe: A Holistic Approach to Vision-Language Model Safety
개요
본 논문은 Vision-Language Model (VLM)의 안전성 향상을 위한 연구를 제시한다. 기존 안전성 연구의 한계점을 지적하며, 더 포괄적인 안전성 데이터셋 및 벤치마크인 HoliSafe와 시각적 가드 모듈(VGM)을 포함하는 새로운 프레임워크를 제안한다. HoliSafe는 이미지-텍스트 상호작용의 다섯 가지 안전/위험 조합을 모두 고려하여, 모델 훈련 및 평가를 위한 보다 견고한 기반을 제공한다. VGM은 입력 이미지의 유해성을 평가하는 모듈로, 안전한 응답 생성뿐만 아니라 거부 결정에 대한 해석 가능한 유해성 분류를 제공한다. 제안된 Safe-VLM (VGM 포함, HoliSafe 훈련)은 여러 VLM 벤치마크에서 최고 수준의 안전성 성능을 달성했으며, HoliSafe-Bench는 기존 VLM 모델의 취약점을 드러냈다.
시사점, 한계점
•
시사점:
◦
HoliSafe 데이터셋과 HoliSafe-Bench를 통해 VLM 안전성 연구의 새로운 기준을 제시.
◦
VGM을 활용한 Safe-VLM은 안전성 성능을 향상시키고, 해석 가능성을 제공.
◦
모듈식 접근 방식은 다양한 사전 훈련된 VLM에 쉽게 통합 가능.
◦
HoliSafe-Bench를 통해 기존 VLM 모델의 취약점을 발견.
•
한계점:
◦
논문에서 구체적인 한계점 언급은 없음. (단, 연구의 결과가 모든 VLM 모델에 완벽하게 적용될 수 있는 것은 아닐 수 있음).