본 논문은 강화 학습을 활용하여 비디오-언어 모델(VLMs)의 추론 능력을 긴 비디오로 확장하는 풀스택 프레임워크를 제시합니다. 52,000개의 장편 비디오 질의응답 쌍으로 구성된 대규모 데이터셋 LongVideo-Reason을 활용하여, 사고 과정 지도 미세 조정(CoT-SFT)과 강화 학습(RL)을 통합한 2단계 학습 파이프라인을 구축했습니다. 효율적인 롤아웃과 프리필링을 위해 캐싱된 비디오 임베딩을 사용하는 다중 모달 강화 시퀀스 병렬 처리(MR-SP)라는 장편 비디오 RL을 위한 학습 인프라도 개발했습니다. 실험 결과, LongVILA-R1-7B는 VideoMME와 같은 장편 비디오 QA 벤치마크에서 강력한 성능을 보였으며, 시간적 추론, 목표 및 목적 추론, 공간적 추론, 플롯 추론 등에서 Video-R1-7B를 능가하고 Gemini-1.5-Pro와 유사한 성능을 달성했습니다. 또한, MR-SP 시스템은 장편 비디오 RL 학습 속도를 최대 2.1배 향상시켰으며, LongVILA-R1은 입력 비디오 프레임 수가 증가함에 따라 일관된 성능 향상을 보였습니다. 마지막으로, 다양한 모달리티(비디오, 텍스트, 오디오), 모델(VILA 및 Qwen 시리즈), 이미지 및 비디오 생성 모델을 지원하는 RL 학습을 위한 학습 시스템을 공개합니다.