Cet article propose CSVC, un nouveau cadre pour le montage vidéo informé causalement. Si les recherches existantes sur l'application du modèle de diffusion latente (MLD) texte-image (T2I) au montage vidéo ont démontré une excellente fidélité visuelle et une excellente contrôlabilité, il peine à maintenir les relations causales dans le processus de génération de données vidéo. CSVC formule la génération vidéo contrefactuelle comme un problème de prédiction distribuée en externe (OOD), prenant en compte les relations causales. Il encode les relations spécifiées dans le graphe causal dans des invites textuelles afin d'intégrer les connaissances causales préalables et guide le processus de génération en optimisant les invites à l'aide d'une perte de texte basée sur un modèle de langage visuel (MLV). Cela garantit que l'espace latent du MLD capture les variations contrefactuelles, conduisant à la génération d'alternatives causalement significatives. CSVC est indépendant du système de montage vidéo sous-jacent et fonctionne sans aucun mécanisme interne ni réglage fin. Les résultats expérimentaux démontrent que CSVC génère des résultats vidéo contrefactuels causalement fidèles au sein de la distribution MLD grâce à un ajustement causal basé sur les invites, obtenant une causalité de pointe sans compromettre la cohérence temporelle ni la qualité visuelle. Parce qu'il est compatible avec n'importe quel système de montage vidéo de dashcam, il offre un potentiel important pour créer des scénarios vidéo réalistes de type « et si » dans divers domaines, tels que les médias numériques et les soins de santé.