MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement
Created by
Haebom
저자
Yufan Deng, Yuanyang Yin, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Shenghai Yuan, Yiding Yang, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
개요
본 논문은 임의의 유형과 조합의 참조 대상 및 텍스트 프롬프트를 기반으로 비디오를 합성하는 'any-reference video generation' 문제를 다룹니다. 저자들은 정체성 불일치, 다중 참조 대상 간의 얽힘, 복사-붙여넣기 인공물과 같은 문제점을 해결하기 위해 MAGREF라는 통합 프레임워크를 제안합니다. MAGREF는 마스크 기반 가이드와 대상 분리 메커니즘을 사용하여 다양한 참조 이미지와 텍스트 프롬프트에 유연하게 대응합니다. 마스크 기반 가이드는 영역 인식 마스킹과 픽셀 단위 채널 연결을 통해 여러 대상의 외형 특징을 보존하고, 대상 분리 메커니즘은 텍스트 조건에서 파생된 각 대상의 의미 값을 해당 시각적 영역에 주입합니다. 또한, 4단계 데이터 파이프라인을 구축하여 복사-붙여넣기 인공물을 완화합니다. 광범위한 실험을 통해 MAGREF가 기존의 최첨단 기술을 능가함을 입증했습니다.
시사점, 한계점
•
시사점:
◦
다양한 참조 이미지와 텍스트 프롬프트를 기반으로 고품질 비디오를 생성하는 새로운 프레임워크 제시
◦
정체성 일관성, 대상 간 얽힘, 복사-붙여넣기 인공물 문제를 해결하기 위한 혁신적인 방법론 제안 (마스크 기반 가이드, 대상 분리 메커니즘, 4단계 데이터 파이프라인)