Les modèles existants de questions-réponses vidéo basées sur la causalité (VideoQA) peinent à réaliser des inférences de haut niveau et reposent généralement sur des pipelines opaques et monolithiques qui entremêlent compréhension vidéo, inférence causale et génération de réponses. Ces approches de type boîte noire ont une interprétabilité limitée et reposent généralement sur des heuristiques superficielles. Dans cet article, nous proposons un nouveau cadre modulaire qui sépare explicitement l'inférence causale de la génération de réponses. En introduisant des chaînes causales en langage naturel comme représentations intermédiaires interprétables, nous permettons une inférence transparente et logiquement cohérente grâce à des séquences causales structurées reliant le contenu vidéo de bas niveau et l'inférence causale de haut niveau. L'architecture en deux étapes se compose d'un extracteur de chaînes causales (CCE), qui génère des chaînes causales à partir de paires vidéo-question, et d'un répondeur basé sur la chaîne causale (CCDA), qui génère des réponses basées sur ces chaînes. Pour pallier le manque de traces d'inférence annotées, nous proposons une méthode évolutive permettant de générer des chaînes causales de haute qualité à partir d'ensembles de données existants, à l'aide de modèles linguistiques à grande échelle. Nous proposons également une nouvelle mesure d'évaluation pour les légendes orientées causalement, CauCo. Des expériences menées sur trois benchmarks à grande échelle démontrent que l'approche proposée surpasse non seulement les modèles de pointe, mais offre également des avantages significatifs en termes d'explicabilité, de confiance des utilisateurs et de généralisation, faisant de la CCE un moteur d'inférence causale réutilisable dans divers domaines.