Sign In

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model

Created by
  • Haebom
Category
Empty

저자

Yongting Zhang, Lu Chen, Guodong Zheng, Yifeng Gao, Rui Zheng, Jinlan Fu, Zhenfei Yin, Senjie Jin, Yu Qiao, Xuanjing Huang, Feng Zhao, Tao Gui, Jing Shao

개요

본 논문은 시각언어모델(VLMs)의 안전한 정렬을 위한 대규모, 고품질 데이터셋인 SPA-VL을 제안합니다. 기존 VLMs의 안전성 연구 부족과 안전 정렬의 복잡성을 해결하기 위해, SPA-VL은 6개의 유해성 영역, 13개의 범주, 53개의 하위 범주를 포함하는 100,788개의 질문-이미지-선택된 응답-거부된 응답 4중항 데이터를 제공합니다. 다양성 확보를 위해 12개의 오픈소스 및 클로즈드소스 VLMs로부터 응답을 수집하였으며, 선호도 데이터 생성 과정은 완전 자동화되었습니다. 실험 결과, SPA-VL 데이터셋을 사용하여 정렬 기법으로 학습된 모델은 핵심 기능을 유지하면서 무해성과 유용성이 크게 향상됨을 보여줍니다.

시사점, 한계점

시사점:
대규모, 고품질, 다양한 VLMs 안전 정렬 데이터셋 SPA-VL을 제시하여 VLMs의 안전성 향상에 기여.
자동화된 데이터 생성 과정을 통해 효율적인 데이터셋 구축 방식 제시.
SPA-VL을 이용한 학습으로 VLMs의 무해성 및 유용성 향상 가능성을 실험적으로 증명.
한계점:
데이터셋의 범위 및 깊이에 대한 추가적인 검증 필요.
특정 VLMs에 편향된 데이터셋 구성 가능성.
장기적인 안전성 및 일반화 성능에 대한 추가 연구 필요.
👍