본 논문은 비디오 대규모 다중 모달 모델(VLMMs)의 추론 능력 향상을 목표로, 새로운 정보가 등장할 때 해석을 수정하는 추상적이고 적응적인 추론 능력을 강화하는 데 초점을 맞추고 있습니다. 기존 VLMMs의 한계점인 고정된 결론 도출 문제를 해결하기 위해, 새로운 과제인 '반박 가능한 비디오 함축(DVidE)'을 제시합니다. DVidE는 비디오 전제와 텍스트 가설이 주어졌을 때, 새로운 정보가 가설을 강화하거나 약화시키는지 판단하는 분류 작업과 가설과의 함축 관계를 수정하는 갱신 정보를 생성하는 생성 작업으로 구성됩니다. 분류 작업을 위해서는 반사실적 추론, ASR 향상 비디오 콘텐츠, 추론 편향 감소를 위한 근거 개선을 활용하는 '반사실적 사고 연쇄' 프레임워크를 제안하고, 생성 작업을 위해서는 ASR 출력과 대규모 언어 모델(LLM)을 결합하여 문맥에 맞는 갱신 정보를 생성하는 프레임워크를 개발했습니다. 또한, 강화/약화 주석과 생성 성능 평가를 위한 LLM 기반 평가 지표를 포함하는 새로운 벤치마크 데이터셋을 제시합니다. 실험 결과는 제안된 방법이 VLMMs의 동적 추론 능력 향상에 효과적임을 보여줍니다.