멀티모달 대규모 언어 모델(MLLM)은 이미지와 비디오 프레임을 시각적 토큰으로 표현하지만, 긴 비디오의 경우 토큰 예산이 실용적인 한계를 넘어선다. 본 논문은 훈련 없이 모델에 구애받지 않는 키프레임 선택 모듈인 FOCUS(Frame-Optimistic Confidence Upper-bound Selection)를 제안한다. FOCUS는 키프레임 선택을 조합적 순수 탐사(CPE) 문제로 공식화하여, 짧은 시간적 클립을 팔로 간주하고, 경험적 평균과 Bernstein 신뢰 반경을 사용하여 정보적 영역을 식별하면서 불확실한 영역에 대한 탐색을 유지한다. 그 결과 두 단계의 탐사-활용 절차를 통해 정확도 향상을 달성하며, 특히 20분 이상의 긴 비디오에서 LongVideoBench 정확도에서 11.9% 향상을 보인다.