본 논문은 비디오 확산 모델의 특징 표현 능력 향상에 초점을 맞추고 있습니다. 기존 비디오 확산 모델 연구가 주로 아키텍처 혁신이나 새로운 학습 목표에 집중한 것과 달리, 본 논문은 사전 훈련된 비전 인코더의 특징 표현과 비디오 생성기의 중간 특징을 정렬함으로써 성능 향상을 도모합니다. 다양한 비전 인코더의 차별성과 시간적 일관성을 분석하여 적합한 인코더를 평가하고, 이를 바탕으로 새로운 다중 특징 융합 및 정렬 방법인 Align4Gen을 제안합니다. Align4Gen은 조건부 및 비조건부 비디오 생성 작업 모두에서 성능 향상을 보였습니다.