SafeVid: Toward Safety Aligned Video Large Multimodal Models
Created by
Haebom
저자
Yixu Wang, Jiaxin Song, Yifeng Gao, Xin Wang, Yang Yao, Yan Teng, Xingjun Ma, Yingchun Wang, Yu-Gang Jiang
개요
본 논문은 비디오 대규모 다중 모달 모델(VLMMs)의 안전성 문제, 특히 정적 안전 정렬이 동적 비디오 컨텍스트로 전이되지 않는 불일치 일반화 문제를 해결하기 위해 SafeVid 프레임워크를 제안합니다. SafeVid는 상세한 텍스트 기반 비디오 설명을 활용하여 텍스트 안전 정렬 기능을 비디오 영역으로 전이시키고, LLM 기반 규칙 기반 안전 추론을 가능하게 합니다. 이는 1) 35만 쌍의 비디오 특화 안전 선호 데이터셋인 SafeVid-350K 생성, 2) 직접 선호도 최적화(DPO)를 이용한 VLMM의 표적 정렬, 3) 새로운 SafeVidBench 벤치마크를 통한 종합적인 평가의 세 단계로 구성된 폐쇄 루프 시스템을 통해 달성됩니다. SafeVid-350K를 이용한 정렬은 LLaVA-NeXT-Video와 같은 모델의 SafeVidBench 성능을 최대 42.39%까지 향상시키는 것으로 나타났습니다. SafeVid는 텍스트 설명을 안전 추론의 매개체로 활용함으로써 VLMM의 안전 정렬을 현저히 향상시킨다는 것을 보여주는 중요한 자원과 구조적 접근 방식을 제공하며, SafeVid-350K 데이터셋을 공개적으로 제공합니다.
시사점, 한계점
•
시사점:
◦
텍스트 설명을 매개체로 활용하여 VLMM의 안전성 문제 해결에 대한 새로운 접근 방식 제시.
◦
VLMM 안전성 향상을 위한 효과적인 프레임워크인 SafeVid 및 대규모 데이터셋 SafeVid-350K 제공.
◦
LLaVA-NeXT-Video와 같은 모델의 안전성 성능을 상당히 향상시킴을 실험적으로 증명.
◦
공개된 데이터셋과 벤치마크를 통해 VLMM 안전성 연구의 발전에 기여.
•
한계점:
◦
SafeVid-350K 데이터셋의 규모가 향후 더 큰 모델이나 더 다양한 비디오 유형에 대해 충분할지에 대한 검토 필요.
◦
제안된 프레임워크의 일반화 성능에 대한 추가적인 연구가 필요. 특정 모델이나 데이터셋에 과적합될 가능성.
◦
텍스트 설명에만 의존하는 방식의 한계. 비디오의 시각적 정보만으로는 포착되지 않는 안전성 위험 요소 존재 가능성.