Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling RL to Long Videos

Created by
  • Haebom

저자

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han

개요

본 논문은 강화 학습을 활용하여 비디오-언어 모델(VLMs)의 추론 능력을 긴 비디오로 확장하는 풀스택 프레임워크를 제시합니다. 52,000개의 장편 비디오 질의응답 쌍으로 구성된 대규모 데이터셋 LongVideo-Reason을 활용하여, 사고 과정 지도 미세 조정(CoT-SFT)과 강화 학습(RL)을 통합한 2단계 학습 파이프라인을 구축했습니다. 효율적인 롤아웃과 프리필링을 위해 캐싱된 비디오 임베딩을 사용하는 다중 모달 강화 시퀀스 병렬 처리(MR-SP)라는 장편 비디오 RL을 위한 학습 인프라도 개발했습니다. 실험 결과, LongVILA-R1-7B는 VideoMME와 같은 장편 비디오 QA 벤치마크에서 강력한 성능을 보였으며, 시간적 추론, 목표 및 목적 추론, 공간적 추론, 플롯 추론 등에서 Video-R1-7B를 능가하고 Gemini-1.5-Pro와 유사한 성능을 달성했습니다. 또한, MR-SP 시스템은 장편 비디오 RL 학습 속도를 최대 2.1배 향상시켰으며, LongVILA-R1은 입력 비디오 프레임 수가 증가함에 따라 일관된 성능 향상을 보였습니다. 마지막으로, 다양한 모달리티(비디오, 텍스트, 오디오), 모델(VILA 및 Qwen 시리즈), 이미지 및 비디오 생성 모델을 지원하는 RL 학습을 위한 학습 시스템을 공개합니다.

시사점, 한계점

시사점:
긴 비디오에 대한 VLMs의 추론 능력을 크게 향상시키는 새로운 풀스택 프레임워크 제시
대규모 장편 비디오 QA 데이터셋 LongVideo-Reason 공개
CoT-SFT와 RL을 결합한 효과적인 2단계 학습 파이프라인 제시
장편 비디오 RL 학습을 위한 효율적인 인프라 MR-SP 개발 및 공개 (최대 2.1배 속도 향상)
기존 모델들을 능가하는 우수한 성능 달성 (VideoMME, LongVideo-Reason-eval)
다양한 모달리티와 모델을 지원하는 RL 학습 시스템 공개
한계점:
LongVideo-Reason 데이터셋의 다양성 및 규모에 대한 추가적인 검증 필요
MR-SP 시스템의 확장성 및 다른 하드웨어 환경에서의 성능 평가 필요
RL 기반 접근 방식의 계산 비용 및 학습 시간에 대한 추가적인 연구 필요
특정 벤치마크에 대한 성능 최적화 가능성과 일반화 성능에 대한 추가 연구 필요
👍