LanDiff는 텍스트-비디오 생성을 위해 자기회귀 언어 모델과 확산 모델의 장점을 결합한 하이브리드 프레임워크입니다. 3D 시각적 특징을 압축하는 의미 토큰화, 고차원 의미 관계를 생성하는 언어 모델, 그리고 조잡한 의미를 고해상도 비디오로 정제하는 스트리밍 확산 모델의 세 가지 혁신적인 요소를 도입했습니다. 50억 매개변수 모델인 LanDiff는 VBench T2V 벤치마크에서 85.43점을 달성하여 Hunyuan Video(130억 매개변수) 및 Sora, Keling, Hailuo와 같은 상용 모델을 능가하는 성능을 보였습니다. 또한 긴 비디오 생성에서도 최첨단 성능을 달성했습니다.