मौजूदा कारण-आधारित वीडियो प्रश्नोत्तर (वीडियोक्यूए) मॉडल उच्च-स्तरीय अनुमान लगाने में कठिनाई का सामना करते हैं और वीडियो समझ, कारण-संबंधी अनुमान और उत्तर निर्माण को आपस में जोड़ने वाली अपारदर्शी, अखंड पाइपलाइनों पर निर्भर करते हैं। इन ब्लैक-बॉक्स दृष्टिकोणों की व्याख्या सीमित होती है और ये सतही अनुमानों पर निर्भर करते हैं। इस पत्र में, हम एक नया मॉड्यूलर ढाँचा प्रस्तावित करते हैं जो कारण-संबंधी अनुमान को उत्तर निर्माण से स्पष्ट रूप से अलग करता है। व्याख्या योग्य मध्यवर्ती निरूपणों के रूप में प्राकृतिक भाषा कारण-संबंधी श्रृंखलाओं को प्रस्तुत करके, हम संरचित कारण-संबंधी अनुक्रमों के माध्यम से पारदर्शी और तार्किक रूप से सुसंगत अनुमान को सक्षम करते हैं जो निम्न-स्तरीय वीडियो सामग्री और उच्च-स्तरीय कारण-संबंधी अनुमान को जोड़ते हैं। दो-चरणीय संरचना में एक कारण-संबंधी श्रृंखला निष्कर्षक (सीसीई) शामिल है, जो वीडियो-प्रश्न युग्मों से कारण-संबंधी श्रृंखलाएँ उत्पन्न करता है, और एक कारण-संबंधी श्रृंखला-आधारित उत्तरदाता (सीसीडीए), जो इन श्रृंखलाओं के आधार पर उत्तर उत्पन्न करता है। एनोटेटेड अनुमान ट्रेस की कमी को दूर करने के लिए, हम बड़े पैमाने के भाषा मॉडल का उपयोग करके मौजूदा डेटासेट से उच्च-गुणवत्ता वाले कारण-श्रृंखलाएँ उत्पन्न करने के लिए एक स्केलेबल विधि प्रस्तावित करते हैं। हम कारण-उन्मुख कैप्शन के लिए एक नवीन मूल्यांकन मीट्रिक, CauCo, भी प्रस्तावित करते हैं। तीन बड़े पैमाने के बेंचमार्क पर किए गए प्रयोगों से पता चलता है कि प्रस्तावित दृष्टिकोण न केवल अत्याधुनिक मॉडलों से बेहतर प्रदर्शन करता है, बल्कि व्याख्यात्मकता, उपयोगकर्ता विश्वास और सामान्यीकरण में भी महत्वपूर्ण लाभ प्रदान करता है, जिससे CCE विभिन्न क्षेत्रों में एक पुन: प्रयोज्य कारण-अनुमान इंजन के रूप में स्थापित होता है।