본 논문은 딥씽킹 모델과 사고연쇄 기술의 등장으로 빠르게 발전하는 시스템2 추론 분야에서, 특히 복잡한 영상 추론 연구의 상대적 부족을 지적하며, 새로운 훈련이 필요 없는 영상 추론 패러다임인 CoT-Vid를 제안합니다. CoT-Vid는 동적 추론 경로 라우팅, 문제 분해 전략, 영상 자기 일관성 검증의 세 가지 주요 구성 요소로 이루어져 있으며, 지각 능력에 크게 의존하는 기존 영상 LLM과 달리 명시적인 추론 메커니즘을 통해 놀라운 성능 향상을 달성했습니다. 또한, 영상 질문 분류를 위한 새로운 기준을 제시하였으며, 다양한 벤치마크에서 뛰어난 결과를 보여주었고, Egochema에서는 기본 모델보다 9.3%, VideoEspresso에서는 5.6% 향상된 성능을 기록하여 GPT-4V, GPT-4o, Gemini-1.5-flash와 같은 대규모 독점 모델과 경쟁하거나 능가하는 성능을 보였습니다. 코드는 곧 공개될 예정입니다.