CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance
Created by
Haebom
Category
Empty
저자
Yufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma
개요
본 논문은 다수의 개별 참조 이미지로 정의된 여러 주제를 포함하면서 시간적 및 공간적 일관성을 유지하는 개인화된 다주제 비디오 생성이라는 아직 탐구되지 않은 과제에 중점을 둡니다. 기존 방법들은 주로 주제 이미지를 텍스트 프롬프트의 키워드에 매핑하는 데 의존하여 모호성을 야기하고 주제 관계를 효과적으로 모델링하는 능력을 제한합니다. 본 논문에서는 다중 모달 대규모 언어 모델(MLLM)을 활용하여 일관된 다주제 비디오 생성을 위한 새로운 프레임워크인 CINEMA를 제안합니다. CINEMA는 주제 이미지와 텍스트 엔티티 간의 명시적인 대응 관계를 필요로 하지 않아 모호성을 완화하고 주석 작업을 줄입니다. MLLM을 활용하여 주제 관계를 해석함으로써 확장성을 용이하게 하고, 대규모의 다양한 데이터 세트를 훈련에 사용할 수 있습니다. 또한, 다양한 수의 주제를 조건으로 할 수 있어 개인화된 콘텐츠 생성의 유연성을 높입니다. 광범위한 평가를 통해 본 논문의 접근 방식이 주제 일관성과 전반적인 비디오 일관성을 크게 향상시켜 스토리텔링, 인터랙티브 미디어 및 개인화된 비디오 생성과 같은 고급 애플리케이션의 길을 열어준다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
다중 모달 대규모 언어 모델(MLLM)을 활용하여 다주제 비디오 생성의 모호성을 줄이고 주석 작업량을 감소시킴.
◦
주제 이미지와 텍스트 엔티티 간의 명시적인 대응 관계 없이 다주제 비디오 생성이 가능함.
◦
다양한 수의 주제를 조건으로 할 수 있는 유연성을 제공함.
◦
주제 일관성과 전반적인 비디오 일관성을 크게 향상시킴.
◦
스토리텔링, 인터랙티브 미디어 및 개인화된 비디오 생성 등 다양한 애플리케이션에 활용 가능성을 제시함.
•
한계점:
◦
본 논문에서 제시된 방법의 한계점에 대한 구체적인 언급이 부족함.
◦
MLLM의 성능에 대한 의존도가 높을 수 있음. MLLM의 한계가 CINEMA의 성능에 영향을 미칠 수 있음.