Este artículo tiene como objetivo mejorar la capacidad de inferencia de los modelos multimodales a gran escala de video (VLMM), centrándose en mejorar la capacidad de inferencia abstracta y adaptativa para modificar la interpretación cuando aparece nueva información. Para resolver el problema fijo de derivación de conclusiones de los VLMM existentes, presentamos una nueva tarea, 'Implicaciones de Video Refutables (DVidE)'. Dada una premisa de video y una hipótesis de texto, DVidE consiste en una tarea de clasificación que determina si la nueva información fortalece o debilita la hipótesis, y una tarea de generación que genera información actualizada que modifica la relación de implicatura con la hipótesis. Para la tarea de clasificación, proponemos un marco de 'cadena de pensamiento contrafactual' que utiliza inferencia contrafactual, contenido de video mejorado con ASR y mejora de la evidencia para reducir el sesgo de inferencia. Para la tarea de generación, desarrollamos un marco que combina la salida de ASR y un modelo de lenguaje a gran escala (LLM) para generar información actualizada sensible al contexto. Además, presentamos un nuevo conjunto de datos de referencia que incluye anotaciones de fortalecimiento/debilitamiento y una métrica de evaluación basada en LLM para evaluar el rendimiento de la generación. Los resultados experimentales demuestran que el método propuesto es eficaz para mejorar la capacidad de inferencia dinámica de los VLMM.