본 논문은 딥 신경망 모델과 사고 연쇄 기술의 발전으로 빠르게 발전하고 있는 시스템2 추론 분야에서, 특히 복잡한 비디오 추론에 대한 연구가 상대적으로 부족한 점을 지적합니다. 이에 따라, 다단계 복잡 추론 설계를 기반으로 하는 새로운 훈련 없는(training-free) 비디오 추론 패러다임인 CoT-Vid를 제안합니다. 기존의 비디오 LLMs과 달리 지각 능력에 크게 의존하지 않고, 명시적인 추론 메커니즘을 통해 놀라운 성능 향상을 달성했습니다. CoT-Vid는 동적 추론 경로 라우팅, 문제 분리 전략, 비디오 자기 일관성 검증의 세 가지 주요 구성 요소로 이루어져 있으며, 새로운 비디오 질문 분류 기준도 제시합니다. 다양한 벤치마크에서 뛰어난 결과를 보였으며, Egochema에서는 기본 모델보다 9.3%, VideoEspresso에서는 5.6% 향상된 성능을 기록하여 GPT-4V, GPT-4o, Gemini-1.5-flash와 같은 대규모 독점 모델과 경쟁하거나 능가하는 성능을 보였습니다. 코드는 곧 공개될 예정입니다.