Los modelos existentes de Respuesta a Preguntas de Video (VideoQA) basados en causalidad presentan dificultades para la inferencia de alto nivel y tienden a basarse en canales opacos y monolíticos que entrelazan la comprensión del video, la inferencia causal y la generación de respuestas. Estos enfoques de caja negra tienen una interpretabilidad limitada y tienden a basarse en heurísticas superficiales. En este artículo, proponemos un novedoso marco modular que separa explícitamente la inferencia causal de la generación de respuestas. Al introducir cadenas causales en lenguaje natural como representaciones intermedias interpretables, facilitamos una inferencia transparente y lógicamente consistente mediante secuencias causales estructuradas que conectan el contenido de video de bajo nivel con la inferencia causal de alto nivel. La arquitectura de dos etapas consta de un extractor de cadenas causales (CCE), que genera cadenas causales a partir de pares de video-pregunta, y un respondedor basado en cadenas causales (CCDA), que genera respuestas basadas en estas cadenas. Para abordar la falta de trazas de inferencia anotadas, proponemos un método escalable para generar cadenas causales de alta calidad a partir de conjuntos de datos existentes utilizando modelos de lenguaje a gran escala. También proponemos CauCo, una novedosa métrica de evaluación para subtítulos con orientación causal. Experimentos con tres puntos de referencia a gran escala demuestran que el enfoque propuesto no solo supera a los modelos más modernos, sino que también ofrece ventajas significativas en explicabilidad, confianza del usuario y generalización, consolidando a CCE como un motor de inferencia causal reutilizable en diversos dominios.