Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VidBridge-R1: Bridging QA and Captioning for RL-based Video Understanding Models with Intermediate Proxy Tasks

Created by
  • Haebom

저자

Xinlong Chen, Yuanxing Zhang, Yushuo Guan, Weihong Lin, Zekun Wang, Bohan Zeng, Yang Shi, Sihan Yang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan

개요

"Reason-Then-Respond" 패러다임을 강화 학습과 결합한 접근 방식은 Multimodal Large Language Models의 발전에 기여했으나, 비디오 도메인에 적용 시 질문 응답 (QA) 또는 캡셔닝 작업 중 하나에 특화된 모델을 양산하여 두 가지 작업을 모두 수행하는 데 어려움을 겪었다. 서로 상반된 작업 특성으로 인해 두 작업의 보상 신호를 단순히 결합하면 성능 저하가 발생한다. 이러한 문제를 해결하기 위해, 본 논문은 DarkEventInfer와 MixVidQA라는 두 가지 중간 프록시 작업을 기반으로 하는 새로운 학습 프레임워크를 제안한다. DarkEventInfer는 마스크 처리된 이벤트 세그먼트가 있는 비디오를 제시하여 모델이 컨텍스트 비디오 단서를 기반으로 가려진 내용을 추론하도록 요구하며, MixVidQA는 두 개의 다른 클립으로 구성된 인터리빙된 비디오 시퀀스를 제시하여 모델이 하나를 격리하고 추론하면서 다른 하나를 무시하도록 요구한다. 이 프레임워크를 통해 전체적이고 발산적인 이해와 정확하고 수렴적인 추론 능력을 동시에 개발하도록 유도한다. 이 프레임워크를 구현한 VidBridge-R1은 패러다임 충돌을 효과적으로 해결하는 최초의 다목적 비디오 추론 모델이다. 광범위한 실험을 통해 VidBridge-R1이 하나의 모델 내에서 QA 및 캡셔닝 모두에서 상당한 성능 향상을 달성했으며, 보다 일반화되고 강력한 비디오 이해 모델을 육성하는 데 있어 제안된 접근 방식의 효과를 입증했다.

시사점, 한계점

시사점:
단일 모델 내에서 QA 및 캡셔닝 작업 모두에서 상당한 성능 향상을 달성했다.
비디오 이해 모델의 일반화 및 성능 향상에 기여했다.
패러다임 충돌 문제를 해결하는 새로운 학습 프레임워크를 제시했다.
DarkEventInfer와 MixVidQA라는 새로운 프록시 작업을 통해 모델의 이해 능력을 향상시켰다.
한계점:
논문 자체에서 명시된 한계점은 언급되지 않았다. (논문에 한계점 관련 내용이 없다는 뜻)
👍