본 논문은 비전 언어 모델(VLMs)의 안전한 정렬을 위한 대규모 고품질 데이터셋인 SPA-VL을 제안합니다. 기존 VLMs의 안전성 연구 부족과 안전 정렬의 복잡성을 해결하기 위해, SPA-VL은 6개의 유해성 영역, 13개의 범주, 53개의 하위 범주를 포함하는 100,788개의 질문-이미지-선택된 응답-거부된 응답 쿼드러플 데이터를 제공합니다. 여러 오픈소스 및 클로즈드소스 VLMs의 응답을 활용하여 다양성을 확보하였으며, 선호도 데이터 생성 과정은 완전 자동화되었습니다. 실험 결과, SPA-VL 데이터셋으로 정렬 기법을 적용하여 훈련된 모델은 핵심 기능을 유지하면서 무해성과 유용성이 크게 향상됨을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모, 고품질, 다양한 VLMs 안전 정렬 데이터셋 SPA-VL을 제공하여 VLMs의 안전성 향상에 기여.
◦
SPA-VL을 이용한 모델 훈련을 통해 무해성과 유용성을 동시에 향상시킬 수 있음을 실험적으로 증명.
◦
자동화된 선호도 데이터 생성 방식은 향후 유사한 데이터셋 구축에 효율성을 제공.
•
한계점:
◦
데이터셋의 범위와 깊이에도 불구하고, 모든 유형의 유해성을 완벽히 포괄하지 못할 가능성 존재.
◦
자동화된 데이터 생성 과정의 편향성 가능성에 대한 추가적인 검증 필요.
◦
특정 VLMs에 편향된 데이터셋 구성이 다른 VLMs에 대한 일반화 성능에 영향을 미칠 수 있음.