본 논문은 장시간 비디오 이해를 위한 기반 기술인 시계열 검색 문제를 해결하기 위해, 강화 학습(RL)을 통해 검색 과정과 추론 과정을 통합하는 TimeSearch-R을 제안합니다. 특히, Group Relative Policy Optimization (GRPO) 기반의 RL 훈련 시 발생할 수 있는 비디오 내용 탐색 부족과 일관성 없는 논리적 추론 문제를 해결하기 위해, Completeness Self-Verification (GRPO-CSV)를 도입합니다. GRPO-CSV는 검색된 비디오 프레임의 적절성을 검증하여 비디오 추론의 완전성을 향상시킵니다. 또한, GRPO-CSV의 SFT cold-start 및 RL 훈련을 위한 특수 데이터셋을 구축하여 시계열 검색 능력을 강화합니다. TimeSearch-R은 Haystack-LVBench, Haystack-Ego4D 등의 시계열 검색 벤치마크 및 VideoMME, MLVU 등의 장시간 비디오 이해 벤치마크에서 상당한 성능 향상을 보이며, LongVideoBench에서 새로운 SOTA를 달성했습니다.