본 논문은 고정된 프레임 샘플링 전략에 의존하는 기존 비디오 이해 모델의 한계를 극복하기 위해, 강화 학습을 활용하여 동적으로 시각 정보를 요청하는 프레임워크인 FrameMind를 소개합니다. FrameMind는 Frame-Interleaved Chain-of-Thought (FiCOT)를 통해 텍스트 추론과 능동적인 시각 인식을 번갈아 수행하며, Dynamic Resolution Frame Sampling (DRFS) 및 DRFS-GRPO 알고리즘을 사용하여 훈련됩니다. 이 방법은 MLVU 및 VideoMME와 같은 벤치마크에서 기존 모델보다 우수한 성능을 보입니다.