Trong bài báo này, chúng tôi trình bày một khuôn khổ toàn diện tận dụng học tăng cường để mở rộng suy luận trên video dạng dài. Để đạt được mục tiêu này, chúng tôi tích hợp ba thành phần cốt lõi: Thứ nhất, LongVideo-Reason, một tập dữ liệu quy mô lớn gồm 104.000 cặp QA video dạng dài với các chú thích suy luận chất lượng cao từ nhiều lĩnh vực khác nhau (thể thao, trò chơi, vlog, v.v.); Thứ hai, một quy trình đào tạo hai giai đoạn mở rộng VLM với học có giám sát chuỗi suy nghĩ (CoT-SFT) và học tăng cường (RL); và Thứ ba, MR-SP, một cơ sở hạ tầng đào tạo cho video dạng dài RL tích hợp xử lý song song chuỗi và một công cụ dựa trên vLLM được thiết kế riêng cho video dạng dài, với các nhúng video được lưu trong bộ nhớ đệm để chuyển tiếp và điền trước hiệu quả. Kết quả thử nghiệm cho thấy LongVILA-R1-7B đạt hiệu suất cao trên các chuẩn video, đạt độ chính xác 65,0% khi không có phụ đề và 70,7% khi có phụ đề trên VideoMME, và luôn vượt trội hơn LongVILA-R1 trên nhiều chuẩn. Ngoài ra, hiệu suất của LongVILA-R1 cũng được cải thiện đều đặn khi số lượng khung hình video đầu vào tăng lên. Hệ thống MR-SP tăng tốc độ học RL video thời lượng dài lên đến 2,1 lần. Cuối cùng, chúng tôi trình bày một hệ thống huấn luyện cho việc học RL hỗ trợ nhiều phương thức khác nhau (video, văn bản, âm thanh), nhiều mô hình khác nhau (dòng VILA và Qwen), và thậm chí cả các mô hình tạo hình ảnh và video. Hệ thống hỗ trợ huấn luyện RL trên các video dài tới 1 giờ (ví dụ: 3.600 khung hình/khoảng 256.000 token) trên một nút A100 duy nhất (8 GPU).