この論文は、ビデオ大規模マルチモーダルモデル(VLMM)の推論能力を向上させることを目的として、新しい情報が登場したときに解釈を修正する抽象的かつ適応的な推論能力を強化することに焦点を当てています。既存のVLMMsのLimitationsである固定結論の導出問題を解決するために、新しい課題である「反論可能なビデオコンテンツ(DVidE)」を提示します。 DVidEは、ビデオの前提とテキスト仮説が与えられたときに、新しい情報が仮説を強化または弱めるかどうかを判断する分類タスクと、仮説との暗黙の関係を変更する更新情報を生成する生成タスクで構成されます。分類作業のためには、反射実績推論、ASR向上ビデオコンテンツ、推論偏向低減のための根拠改善を活用する「反射実績思考連鎖」フレームワークを提案し、生成作業のためにはASR出力と大規模言語モデル(LLM)を組み合わせてコンテキストに合った更新情報を生成するフレームワークを開発しました。さらに、強化/弱化注釈と生成パフォーマンス評価のためのLLMベースの評価指標を含む新しいベンチマークデータセットを提供します。実験結果は,提案した方法がVLMMの動的推論能力の向上に有効であることを示した。