Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling RL to Long Videos

Created by
  • Haebom

저자

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han

개요

본 논문은 장시간 비디오에 대한 추론을 확장하기 위해 강화 학습을 활용하는 풀스택 프레임워크를 제시합니다. 이를 위해 세 가지 핵심 구성 요소를 통합합니다. 첫째, 다양한 영역(스포츠, 게임, 브이로그 등)에서 고품질 추론 주석이 포함된 104,000개의 장시간 비디오 QA 쌍으로 구성된 대규모 데이터셋 LongVideo-Reason입니다. 둘째, 사고 연쇄 지도 학습(CoT-SFT)과 강화 학습(RL)을 통해 VLM을 확장하는 2단계 학습 파이프라인입니다. 셋째, 시퀀스 병렬 처리와 장시간 비디오에 맞춤화된 vLLM 기반 엔진을 통합하여 효율적인 전개와 사전 채우기를 위한 캐시된 비디오 임베딩을 사용하는 장시간 비디오 RL을 위한 학습 인프라 MR-SP입니다. 실험 결과, LongVILA-R1-7B는 비디오 벤치마크에서 강력한 성능을 달성하여 VideoMME에서 자막 없이 65.0%, 자막이 있을 때 70.7%의 정확도를 기록했으며, 여러 벤치마크에서 LongVILA-R1을 일관되게 능가했습니다. 또한 입력 비디오 프레임 수가 증가함에 따라 LongVILA-R1의 성능이 꾸준히 향상되었습니다. MR-SP 시스템은 장시간 비디오 RL 학습 속도를 최대 2.1배 향상시켰습니다. 마지막으로, 다양한 모달리티(비디오, 텍스트, 오디오), 다양한 모델(VILA 및 Qwen 시리즈), 심지어 이미지 및 비디오 생성 모델까지 지원하는 RL 학습을 위한 교육 시스템을 공개합니다. 단일 A100 노드(8개의 GPU)에서 최대 1시간 길이의 비디오(예: 3,600 프레임/약 256,000 토큰)에 대한 RL 학습을 지원합니다.

시사점, 한계점

시사점:
장시간 비디오에 대한 이전보다 향상된 비디오 언어 모델의 추론 성능을 제시합니다.
효율적인 장시간 비디오 강화 학습을 위한 새로운 프레임워크(MR-SP)를 제시합니다.
대규모 장시간 비디오 QA 데이터셋 LongVideo-Reason을 공개합니다.
공개된 학습 시스템은 다양한 모달리티와 모델을 지원하여 연구의 재현성 및 확장성을 높입니다.
한계점:
데이터셋의 다양성 및 균형에 대한 자세한 설명이 부족합니다.
강화 학습 알고리즘의 구체적인 세부 사항이 부족하여 재현성에 어려움이 있을 수 있습니다.
특정 하드웨어 환경(A100 노드)에 의존적인 성능 결과가 제시되어 일반화 가능성에 대한 추가 연구가 필요합니다.
LongVILA-R1-7B 모델의 매개변수 크기에 대한 정보가 부족합니다.
👍