This page organizes papers related to artificial intelligence published around the world. This page is summarized using Google Gemini and is operated on a non-profit basis. The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.
ConceptGuard: Proactive Safety in Text-and-Image-to-Video Generation through Multimodal Risk Detection
Created by
Haebom
Category
Empty
저자
Ruize Ma, Minghong Cai, Yilei Jiang, Jiaming Han, Yi Feng, Yingshui Tan, Xiaoyong Zhu, Bo Zhang, Bo Zheng, Xiangyu Yue
개요
본 논문은 텍스트 및 이미지를 결합한 멀티모달 프롬프트로부터 고품질 비디오를 생성하는 비디오 생성 모델의 안전성 문제를 해결하기 위해, ConceptGuard라는 통합 안전 보호 프레임워크를 제안합니다. ConceptGuard는 멀티모달 비디오 생성 과정에서 유해한 의미를 사전 예방적으로 감지하고 완화하는 것을 목표로 합니다. 이를 위해, 이미지-텍스트 입력을 구조화된 개념 공간에 투영하여 잠재적인 안전 위험을 식별하는 대조 감지 모듈과, 프롬프트의 멀티모달 조건을 통해 안전하지 않은 개념을 억제하는 의미 억제 메커니즘을 사용합니다. ConceptGuard의 개발 및 평가를 위해 ConceptRisk라는 대규모 멀티모달 위험 학습 데이터셋과 T2VSafetyBench-TI2V 벤치마크를 도입했습니다. 실험 결과는 ConceptGuard가 기존 baseline보다 우수하며, 위험 감지 및 안전한 비디오 생성에서 최고 수준의 성능을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
멀티모달 비디오 생성 모델의 안전성 문제를 해결하기 위한 혁신적인 프레임워크 제시.
◦
유해 콘텐츠 감지 및 완화에 효과적인 새로운 접근 방식 제시 (두 단계 메커니즘).
◦
ConceptGuard의 개발과 평가를 위한 새로운 벤치마크 (ConceptRisk, T2VSafetyBench-TI2V) 도입.