본 연구는 멀티모달 대규모 언어 모델(LLM)의 비디오 이해 능력을 향상시키기 위해, 이미지 기반 모델을 비디오로 미세 조정하는 것의 효과를 분석한다. 특히, 프레임 토큰을 단순하게 연결하는 기존 방식의 한계를 지적하고, 프레임 간의 전환 이벤트 설명을 생성하는 Visual Chain-of-Thought (vCoT)를 제안한다. vCoT를 활용하여 이미지 기반 모델과 비디오 미세 조정 모델을 비교한 결과, vCoT는 이미지 기반 모델의 장편 비디오 질문 응답 성능을 크게 향상시켰지만, 비디오 미세 조정 모델에는 미미한 효과를 보였다. 또한, 비디오 모델이 정적인 환경에서도 시간적 추론 능력을 보여, 관계적 시각 추론 작업에서 이미지 모델보다 우수한 성능을 나타냄을 확인했다.