Sign In

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Created by
  • Haebom
Category
Empty

저자

Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang

개요

LanDiff는 텍스트-비디오 생성을 위해 자기회귀 언어 모델과 확산 모델의 장점을 결합한 하이브리드 프레임워크입니다. 3D 시각적 특징을 압축하는 의미 토큰화, 고차원 의미 관계를 생성하는 언어 모델, 그리고 조잡한 의미를 고해상도 비디오로 정제하는 스트리밍 확산 모델의 세 가지 혁신적인 요소를 도입했습니다. 50억 매개변수 모델인 LanDiff는 VBench T2V 벤치마크에서 85.43점을 달성하여 Hunyuan Video(130억 매개변수) 및 Sora, Keling, Hailuo와 같은 상용 모델을 능가하는 성능을 보였습니다. 또한 긴 비디오 생성에서도 최첨단 성능을 달성했습니다.

시사점, 한계점

시사점:
자기회귀 언어 모델과 확산 모델의 한계를 극복하는 새로운 하이브리드 접근법 제시.
의미 토큰화를 통한 효율적인 3D 시각적 특징 압축 (약 14,000배 압축).
VBench T2V 벤치마크 및 긴 비디오 생성에서 최첨단 성능 달성.
오픈소스 모델 중에서도 상용 모델을 능가하는 성능.
한계점:
논문에서 구체적인 한계점이 언급되지 않음. 향후 연구를 통해 추가적인 개선이 필요할 수 있음.
👍