ConceptGuard: Proactive Safety in Text-and-Image-to-Video Generation through Multimodal Risk Detection
Created by
Haebom
Category
Empty
저자
Ruize Ma, Minghong Cai, Yilei Jiang, Jiaming Han, Yi Feng, Yingshui Tan, Xiaoyong Zhu, Bo Zhang, Bo Zheng, Xiangyu Yue
개요
본 논문은 텍스트와 이미지를 결합한 멀티모달 프롬프트로부터 고품질 비디오를 생성하는 비디오 생성 모델의 발전과 관련된 안전 위험을 다룬다. 특히, 개별 모달리티 또는 상호작용에서 유해한 콘텐츠가 발생할 수 있는 문제를 해결하기 위해, 사전 지식이나 사후 검토 없이 위험을 사전에 감지하고 완화하는 통합 안전 프레임워크인 ConceptGuard를 제안한다. ConceptGuard는 대비 탐지 모듈을 사용하여 잠재적 안전 위험을 식별하고, 의미 억제 메커니즘을 통해 유해한 개념을 생성 과정에서 배제한다. 이 연구에서는 ConceptRisk라는 대규모 멀티모달 위험 훈련 데이터셋과 T2VSafetyBench를 TI2V(Text-and-Image-to-Video) 안전 설정에 맞게 적용한 T2VSafetyBench-TI2V라는 새로운 벤치마크를 도입하여 프레임워크의 개발과 평가를 지원한다. 실험 결과 ConceptGuard는 기존 방법론보다 우수한 성능을 보였다.
시사점, 한계점
•
시사점:
◦
멀티모달 비디오 생성 모델의 안전성 문제를 해결하기 위한 새로운 프레임워크 제시.
◦
사전 지식이나 사후 검토 없이 위험을 사전에 감지하고 완화하는 능동적 안전 메커니즘 구축.
◦
ConceptRisk 및 T2VSafetyBench-TI2V와 같은 새로운 벤치마크를 통해 연구 및 평가를 위한 기반 마련.