본 논문은 장시간 비디오 이해의 어려움을 해결하기 위해 에이전트 기반, 학습이 필요 없는 새로운 프레임워크인 MCAF(Multimodal Coarse-to-fine Attention Focusing)를 제안합니다. MCAF는 다중 모달 정보를 통해 관련성이 높은 프레임에 집중하고, 희석된 시간적 확장 메커니즘을 사용하여 중요한 세부 정보를 놓치지 않도록 합니다. 또한, 모델의 응답 신뢰도를 활용한 자기 반성 메커니즘을 통해 주의 집중을 적응적으로 조절하여 질의와 관련된 맥락을 포착하고 응답 정확도를 향상시킵니다. 실험 결과, MCAF는 EgoSchema, Next-QA, IntentQA, Video-MME 데이터셋에서 기존 최고 성능 모델들을 능가하는 결과를 보였습니다. 특히 EgoSchema 데이터셋에서는 5%의 성능 향상을 달성했습니다.