従来の因果関係ベースのビデオクエリ応答(VideoQA)モデルは、高次元の推論に困難を抱えており、ビデオの理解、因果推論、回答の生成にまつわる不透明で単一のパイプラインに依存する傾向があります。このようなブラックボックス方式は、解釈力が制限的で表面的なヒューリスティックに依存する傾向があります。この論文では、因果推論と回答の生成を明示的に分離する新しいモジュラーフレームワークを提案します。自然言語因子チェーンを解釈可能な中間表現として導入することで、低レベルのビデオコンテンツと高レベルの因果推論を結ぶ構造化因果シーケンスを介して、透明で論理的に一貫した推論を可能にします。 2段階のアーキテクチャは、ビデオと質問のペアで因果連鎖を生成する因果連鎖抽出器(CCE)と、これらの連鎖に基づいて回答を生成する因果連鎖ベースの回答者(CCDA)で構成されています。注釈付き推論追跡の欠如を解決するために、大規模な言語モデルを使用して既存のデータセットから高品質の因果連鎖を生成する拡張可能な方法を提案します。また、因果指向字幕の新しい評価指標であるCauCoも提案しています。 3つの大規模ベンチマークの実験は、提案されたアプローチが最先端のモデルを上回るだけでなく、説明の可能性、ユーザーの信頼性、一般化に大きな利点をもたらし、CCEをさまざまなドメインで再利用可能な因果推論エンジンとして位置づけます。