En este artículo, presentamos un marco de trabajo integral que aprovecha el aprendizaje por refuerzo para extender la inferencia en vídeos de larga duración. Para ello, integramos tres componentes principales: en primer lugar, LongVideo-Reason, un conjunto de datos a gran escala de 104 000 pares de control de calidad de vídeos de larga duración con anotaciones de inferencia de alta calidad de diversos dominios (deportes, videojuegos, vlogs, etc.); en segundo lugar, una secuencia de entrenamiento de dos etapas que extiende el aprendizaje por refuerzo (VLM) con aprendizaje supervisado por cadena de pensamiento (CoT-SFT) y aprendizaje por refuerzo (RL); y en tercer lugar, MR-SP, una infraestructura de entrenamiento para el aprendizaje por refuerzo (RL) de vídeos de larga duración que integra procesamiento secuencial paralelo y un motor basado en vLLM, adaptado para vídeos de larga duración, con incrustaciones de vídeo en caché para un reenvío y prellenado eficientes. Los resultados experimentales muestran que LongVILA-R1-7B alcanza un excelente rendimiento en pruebas de referencia de video, con una precisión del 65,0 % sin subtítulos y del 70,7 % con subtítulos en VideoMME, y supera consistentemente a LongVILA-R1 en múltiples pruebas. Además, el rendimiento de LongVILA-R1 mejora de forma constante a medida que aumenta el número de fotogramas de video de entrada. El sistema MR-SP acelera el aprendizaje de RL en video de larga duración hasta 2,1 veces. Finalmente, presentamos un sistema de entrenamiento para el aprendizaje de RL compatible con diversas modalidades (video, texto, audio), varios modelos (series VILA y Qwen) e incluso modelos de generación de imágenes y video. Admite entrenamiento de RL en videos de hasta 1 hora de duración (p. ej., 3600 fotogramas/aproximadamente 256 000 tokens) en un solo nodo A100 (8 GPU).