Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Created by
  • Haebom

저자

Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang

개요

Presto는 15초 길이의 장기간 일관성과 풍부한 콘텐츠를 가진 비디오를 생성하도록 설계된 새로운 비디오 확산 모델입니다. 기존의 비디오 생성 방법들은 긴 시간에 걸쳐 다양한 시나리오를 유지하는 데 어려움을 겪습니다. 이를 해결하기 위해, Presto는 시간적 차원을 따라 은닉 상태를 세그먼트로 분할하여 각 세그먼트가 해당 하위 캡션에 크로스 어텐션을 적용하는 세그먼트 크로스 어텐션(SCA) 전략을 제안합니다. SCA는 추가적인 매개변수가 필요 없어 기존 DiT 기반 아키텍처에 매끄럽게 통합될 수 있습니다. 고품질의 긴 비디오 생성을 용이하게 하기 위해, 시나리오 일관성을 갖춘 풍부한 콘텐츠의 26만1천 개 비디오로 구성된 LongTake-HD 데이터셋을 구축했습니다. 이 데이터셋은 전체 비디오 캡션과 5개의 점진적인 하위 캡션으로 주석이 달려 있습니다. 실험 결과, Presto는 VBench Semantic Score에서 78.5%, Dynamic Degree에서 100%를 달성하여 기존 최첨단 비디오 생성 방법들을 능가했습니다. 이는 Presto가 콘텐츠 풍부함을 크게 향상시키고 장기간 일관성을 유지하며 복잡한 텍스트 세부 정보를 포착함을 보여줍니다.

시사점, 한계점

시사점:
15초 길이의 장기간 일관성 있는 고품질 비디오 생성 가능
풍부한 콘텐츠와 복잡한 텍스트 세부 정보 포착
기존 DiT 기반 아키텍처에 매끄럽게 통합 가능한 SCA 전략 제시
새로운 고품질 비디오 데이터셋인 LongTake-HD 공개
기존 최첨단 모델 성능을 능가하는 결과 달성 (VBench Semantic Score 78.5%, Dynamic Degree 100%)
한계점:
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족함.
LongTake-HD 데이터셋의 크기가 다른 대규모 데이터셋에 비해 상대적으로 작을 수 있음.
15초 이상의 긴 비디오 생성에 대한 성능은 추가 연구가 필요함.
👍