Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

Created by
  • Haebom

저자

Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai

개요

본 논문은 텍스트 기반 비디오 생성의 높은 계산 비용 문제를 해결하기 위해 선형 복잡도를 갖는 새로운 프레임워크, LinGen을 제안합니다. 기존 Diffusion Transformer(DiT)의 이차 복잡도를 갖는 self-attention 블록을 선형 복잡도의 MATE 블록으로 대체하여, 단일 GPU에서 고해상도 장편 비디오 생성을 가능하게 합니다. MATE 블록은 MA-branch와 TE-branch로 구성되며, MA-branch는 장단거리 상관관계를, TE-branch는 인접 토큰 및 중간 범위 토큰 간의 시간적 상관관계를 처리합니다. 실험 결과, LinGen은 DiT보다 비디오 품질이 우수하며, 계산량과 지연 시간을 최대 15배(11.5배)까지 줄이는 것으로 나타났습니다. 또한, 최첨단 모델들과 비교하여 비슷하거나 우수한 비디오 품질을 보였습니다. 이는 향후 장편 영화 생성 및 실시간 양방향 비디오 생성의 가능성을 열어줍니다.

시사점, 한계점

시사점:
선형 복잡도를 갖는 텍스트-비디오 생성 프레임워크 LinGen을 통해 단일 GPU에서 고해상도 장편 비디오 생성을 최초로 가능하게 함.
기존 DiT 모델 대비 비디오 품질 향상 및 계산량/지연 시간 감소 (최대 15배/11.5배).
최첨단 모델들과 비교하여 경쟁력 있는 비디오 품질 달성.
장편 영화 생성 및 실시간 양방향 비디오 생성 가능성 제시.
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음. 향후 연구를 통해 추가적인 성능 개선 및 다양한 비디오 생성 작업에 대한 적용 가능성을 검증할 필요가 있음.
👍