Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Adaptación del aprendizaje real a vídeos largos

Created by
  • Haebom

Autor

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han

Describir

En este artículo, presentamos un marco de trabajo integral que aprovecha el aprendizaje por refuerzo para extender la inferencia en vídeos de larga duración. Para ello, integramos tres componentes principales: en primer lugar, LongVideo-Reason, un conjunto de datos a gran escala de 104 000 pares de control de calidad de vídeos de larga duración con anotaciones de inferencia de alta calidad de diversos dominios (deportes, videojuegos, vlogs, etc.); en segundo lugar, una secuencia de entrenamiento de dos etapas que extiende el aprendizaje por refuerzo (VLM) con aprendizaje supervisado por cadena de pensamiento (CoT-SFT) y aprendizaje por refuerzo (RL); y en tercer lugar, MR-SP, una infraestructura de entrenamiento para el aprendizaje por refuerzo (RL) de vídeos de larga duración que integra procesamiento secuencial paralelo y un motor basado en vLLM, adaptado para vídeos de larga duración, con incrustaciones de vídeo en caché para un reenvío y prellenado eficientes. Los resultados experimentales muestran que LongVILA-R1-7B alcanza un excelente rendimiento en pruebas de referencia de video, con una precisión del 65,0 % sin subtítulos y del 70,7 % con subtítulos en VideoMME, y supera consistentemente a LongVILA-R1 en múltiples pruebas. Además, el rendimiento de LongVILA-R1 mejora de forma constante a medida que aumenta el número de fotogramas de video de entrada. El sistema MR-SP acelera el aprendizaje de RL en video de larga duración hasta 2,1 veces. Finalmente, presentamos un sistema de entrenamiento para el aprendizaje de RL compatible con diversas modalidades (video, texto, audio), varios modelos (series VILA y Qwen) e incluso modelos de generación de imágenes y video. Admite entrenamiento de RL en videos de hasta 1 hora de duración (p. ej., 3600 fotogramas/aproximadamente 256 000 tokens) en un solo nodo A100 (8 GPU).

Takeaways, Limitations

Takeaways:
Presentamos un rendimiento de inferencia de modelos de lenguaje de video mejorado en comparación con trabajos anteriores en videos de larga duración.
Presentamos un nuevo marco (MR-SP) para un aprendizaje de refuerzo de vídeo a largo plazo eficiente.
Estamos lanzando LongVideo-Reason, un conjunto de datos de control de calidad de video a largo plazo y a gran escala.
El sistema de aprendizaje abierto admite una variedad de modalidades y modelos, aumentando la reproducibilidad y escalabilidad de la investigación.
Limitations:
Falta de descripción detallada de la diversidad y el equilibrio del conjunto de datos.
La falta de detalles específicos de los algoritmos de aprendizaje de refuerzo puede generar dificultades en la reproducibilidad.
Los resultados de rendimiento presentados dependen de un entorno de hardware específico (nodo A100), lo que requiere más estudios sobre generalización.
No hay suficiente información sobre los tamaños de los parámetros del modelo LongVILA-R1-7B.
👍