Este artículo propone CSVC, un novedoso marco para la edición de video con base causal. Si bien la investigación existente sobre la aplicación del modelo de difusión latente (LDM) de texto a imagen (T2I) a la edición de video ha demostrado una excelente fidelidad visual y controlabilidad, presenta dificultades para mantener relaciones causales en el proceso de generación de datos de video. CSVC formula la generación de video contrafáctico como un problema de predicción distribuido externamente (OOD), considerando relaciones causales. Codifica las relaciones especificadas en el grafo causal en indicaciones de texto para incorporar conocimiento causal previo y guía el proceso de generación optimizando las indicaciones mediante una pérdida de texto basada en un modelo visual-lingüístico (VLM). Esto garantiza que el espacio latente del LDM capture las variaciones contrafácticas, lo que genera alternativas causalmente significativas. CSVC es independiente del sistema de edición de video subyacente y funciona sin mecanismos internos ni ajustes finos. Los resultados experimentales demuestran que CSVC genera resultados de video contrafácticos causalmente fieles dentro de la distribución LDM mediante un ajuste causal basado en indicaciones, logrando una causalidad de vanguardia sin comprometer la consistencia temporal ni la calidad visual. Debido a que es compatible con cualquier sistema de edición de video de dashcam, tiene un potencial significativo para crear escenarios de video hipotéticos realistas en una variedad de campos, como medios digitales y atención médica.