본 논문에서는 비디오 내용 이해 능력의 제한점을 극복하기 위해, Large Multi-modal Models (LMMs)에 대한 새로운 프레임 선택 최적화 프레임워크인 ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding)를 제안합니다. ReFoCUS는 강화 학습을 통해 텍스트 응답이 아닌 시각적 입력 선택에 초점을 맞춰 프레임 선택 정책을 학습합니다. 기존의 정적 휴리스틱 또는 외부 검색 모듈에 의존하는 방식과 달리, 참조 LMM에서 파생된 보상 신호를 사용하여 시간적 맥락을 고려한 응답을 가장 잘 지원하는 프레임에 대한 모델의 내재적 선호도를 반영합니다. 자동 회귀 조건부 선택 아키텍처를 사용하여 시간적 일관성을 유지하면서 복잡성을 줄이고, 프레임 단계의 명시적 감독 없이도 여러 비디오 QA 벤치마크에서 추론 성능을 향상시킵니다.