Este artículo se centra en mejorar la capacidad de representación de características de los modelos de difusión de vídeo. A diferencia de investigaciones previas sobre modelos de difusión de vídeo, centradas principalmente en la innovación arquitectónica o en nuevos objetivos de aprendizaje, este artículo busca mejorar el rendimiento alineando las representaciones de características de codificadores de visión preentrenados con las características intermedias de un generador de vídeo. Evaluamos los codificadores adecuados analizando la discriminabilidad y la coherencia temporal de varios codificadores de visión y, con base en este análisis, proponemos Align4Gen, un novedoso método de fusión y alineación de múltiples características. Align4Gen demuestra mejoras de rendimiento en tareas de generación de vídeo tanto condicionales como incondicionales.