본 논문은 시각언어모델(VLMs)의 안전한 정렬을 위한 대규모, 고품질 데이터셋인 SPA-VL을 제안합니다. 기존 VLMs의 안전성 연구 부족과 안전 정렬의 복잡성을 해결하기 위해, SPA-VL은 6개의 유해성 영역, 13개의 범주, 53개의 하위 범주를 포함하는 100,788개의 질문-이미지-선택된 응답-거부된 응답 4중항 데이터를 제공합니다. 다양성 확보를 위해 12개의 오픈소스 및 클로즈드소스 VLMs로부터 응답을 수집하였으며, 선호도 데이터 생성 과정은 완전 자동화되었습니다. 실험 결과, SPA-VL 데이터셋을 사용하여 정렬 기법으로 학습된 모델은 핵심 기능을 유지하면서 무해성과 유용성이 크게 향상됨을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모, 고품질, 다양한 VLMs 안전 정렬 데이터셋 SPA-VL을 제시하여 VLMs의 안전성 향상에 기여.
◦
자동화된 데이터 생성 과정을 통해 효율적인 데이터셋 구축 방식 제시.
◦
SPA-VL을 이용한 학습으로 VLMs의 무해성 및 유용성 향상 가능성을 실험적으로 증명.