Cet article vise à améliorer la capacité d'inférence des modèles multimodaux vidéo à grande échelle (VLMM), en se concentrant sur l'amélioration de la capacité d'inférence abstraite et adaptative pour modifier l'interprétation lorsque de nouvelles informations apparaissent. Pour résoudre le problème de dérivation de conclusions fixes des VLMM existants, nous présentons une nouvelle tâche, « Implications vidéo réfutables » (DVidE). Étant donné une prémisse vidéo et une hypothèse textuelle, DVidE comprend une tâche de classification qui détermine si de nouvelles informations renforcent ou affaiblissent l'hypothèse, et une tâche de génération qui génère des informations mises à jour modifiant la relation d'implicature avec l'hypothèse. Pour la tâche de classification, nous proposons un cadre de « chaîne de pensée contrefactuelle » qui utilise l'inférence contrefactuelle, le contenu vidéo amélioré par la reconnaissance automatique de la parole (ASR) et l'amélioration des preuves pour réduire le biais d'inférence. Pour la tâche de génération, nous développons un cadre qui combine la sortie de la reconnaissance automatique de la parole (ASR) et un modèle de langage à grande échelle (LLM) pour générer des informations mises à jour contextuelles. De plus, nous présentons un nouvel ensemble de données de référence comprenant des annotations de renforcement/affaiblissement et une métrique d'évaluation basée sur LLM pour évaluer les performances de génération. Les résultats expérimentaux montrent que la méthode proposée est efficace pour améliorer la capacité d'inférence dynamique des VLMM.