Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model

Created by
  • Haebom
Category
Empty

저자

Yongting Zhang, Lu Chen, Guodong Zheng, Yifeng Gao, Rui Zheng, Jinlan Fu, Zhenfei Yin, Senjie Jin, Yu Qiao, Xuanjing Huang, Feng Zhao, Tao Gui, Jing Shao

개요

본 논문은 비전 언어 모델(VLMs)의 안전한 정렬을 위한 대규모 고품질 데이터셋인 SPA-VL을 제안합니다. 기존 VLMs의 안전성 연구 부족과 안전 정렬의 복잡성을 해결하기 위해, SPA-VL은 6개의 유해성 영역, 13개의 범주, 53개의 하위 범주를 포함하는 100,788개의 질문-이미지-선택된 응답-거부된 응답 쿼드러플 데이터를 제공합니다. 여러 오픈소스 및 클로즈드소스 VLMs의 응답을 활용하여 다양성을 확보하였으며, 선호도 데이터 생성 과정은 완전 자동화되었습니다. 실험 결과, SPA-VL 데이터셋으로 정렬 기법을 적용하여 훈련된 모델은 핵심 기능을 유지하면서 무해성과 유용성이 크게 향상됨을 보여줍니다.

시사점, 한계점

시사점:
대규모, 고품질, 다양한 VLMs 안전 정렬 데이터셋 SPA-VL을 제공하여 VLMs의 안전성 향상에 기여.
SPA-VL을 이용한 모델 훈련을 통해 무해성과 유용성을 동시에 향상시킬 수 있음을 실험적으로 증명.
자동화된 선호도 데이터 생성 방식은 향후 유사한 데이터셋 구축에 효율성을 제공.
한계점:
데이터셋의 범위와 깊이에도 불구하고, 모든 유형의 유해성을 완벽히 포괄하지 못할 가능성 존재.
자동화된 데이터 생성 과정의 편향성 가능성에 대한 추가적인 검증 필요.
특정 VLMs에 편향된 데이터셋 구성이 다른 VLMs에 대한 일반화 성능에 영향을 미칠 수 있음.
👍