Cet article propose un cadre de compression vidéo optimisé perceptuellement qui exploite le modèle de diffusion conditionnelle, lequel excelle dans la reconstruction de contenu vidéo correspondant à la perception visuelle humaine. Nous recadrons la compression vidéo comme une tâche générative conditionnelle, où un modèle génératif synthétise la vidéo à partir de signaux rares mais riches en informations. Nous introduisons trois modules principaux : le conditionnement multiparticules, qui capture à la fois la structure statique de la scène et les indices spatio-temporels dynamiques ; une représentation compacte conçue pour une transmission efficace sans sacrifier la richesse sémantique ; et un apprentissage multiconditionnel utilisant l'abandon de modalité et les intégrations sensibles aux rôles pour éviter une dépendance excessive à une modalité unique et améliorer la robustesse. Des expériences approfondies démontrent que la méthode proposée surpasse significativement les codecs conventionnels et neuronaux sur des mesures de qualité perceptuelle telles que la distance vidéo de Fréchet (FVD) et le LPIPS, en particulier à des taux de compression élevés.