Este artículo propone un marco de compresión de video perceptualmente optimizado que aprovecha el modelo de difusión condicional, el cual destaca en la reconstrucción de contenido de video que coincide con la percepción visual humana. Replanteamos la compresión de video como una tarea generativa condicional, donde un modelo generativo sintetiza video a partir de señales dispersas pero ricas en información. Presentamos tres módulos principales: condicionamiento multipartícula, que captura tanto la estructura estática de la escena como las señales espaciotemporales dinámicas; una representación compacta diseñada para una transmisión eficiente sin sacrificar la riqueza semántica; y entrenamiento multicondicional utilizando abandono de modalidad e incrustaciones con reconocimiento de roles para evitar la dependencia excesiva de una sola modalidad y mejorar la robustez. Amplios experimentos demuestran que el método propuesto supera significativamente a los códecs convencionales y neuronales en métricas de calidad perceptual como la Distancia de Video de Fréchet (FVD) y LPIPS, especialmente con altas relaciones de compresión.