본 논문은 의도 기반 비디오 이해를 위한 새로운 프레임워크인 ViaRL을 제시합니다. ViaRL은 규칙 기반 강화 학습(RL)을 활용하여 관련 프레임을 선택함으로써, 비용이 많이 들고 확장성이 제한적인 기존의 휴리스틱 방법이나 의사 레이블 기반 접근 방식을 극복합니다. 다운스트림 모델의 정확도를 보상 신호로 활용하여 프레임 선택기를 학습하며, 반복적인 증폭 전략을 통해 비디오 CoT 시스템의 각 구성 요소를 반복적으로 개선합니다. VideoMME, LVBench, MLVU 등 다양한 벤치마크에서 실험을 통해 ViaRL의 우수한 성능과 확장성을 입증합니다. 특히, MLVU의 Needle QA 작업에서 약 15%의 성능 향상을 달성했습니다.