"Reason-Then-Respond" 패러다임을 강화 학습과 결합한 접근 방식은 Multimodal Large Language Models의 발전에 기여했으나, 비디오 도메인에 적용 시 질문 응답 (QA) 또는 캡셔닝 작업 중 하나에 특화된 모델을 양산하여 두 가지 작업을 모두 수행하는 데 어려움을 겪었다. 서로 상반된 작업 특성으로 인해 두 작업의 보상 신호를 단순히 결합하면 성능 저하가 발생한다. 이러한 문제를 해결하기 위해, 본 논문은 DarkEventInfer와 MixVidQA라는 두 가지 중간 프록시 작업을 기반으로 하는 새로운 학습 프레임워크를 제안한다. DarkEventInfer는 마스크 처리된 이벤트 세그먼트가 있는 비디오를 제시하여 모델이 컨텍스트 비디오 단서를 기반으로 가려진 내용을 추론하도록 요구하며, MixVidQA는 두 개의 다른 클립으로 구성된 인터리빙된 비디오 시퀀스를 제시하여 모델이 하나를 격리하고 추론하면서 다른 하나를 무시하도록 요구한다. 이 프레임워크를 통해 전체적이고 발산적인 이해와 정확하고 수렴적인 추론 능력을 동시에 개발하도록 유도한다. 이 프레임워크를 구현한 VidBridge-R1은 패러다임 충돌을 효과적으로 해결하는 최초의 다목적 비디오 추론 모델이다. 광범위한 실험을 통해 VidBridge-R1이 하나의 모델 내에서 QA 및 캡셔닝 모두에서 상당한 성능 향상을 달성했으며, 보다 일반화되고 강력한 비디오 이해 모델을 육성하는 데 있어 제안된 접근 방식의 효과를 입증했다.
시사점, 한계점
•
시사점:
◦
단일 모델 내에서 QA 및 캡셔닝 작업 모두에서 상당한 성능 향상을 달성했다.
◦
비디오 이해 모델의 일반화 및 성능 향상에 기여했다.
◦
패러다임 충돌 문제를 해결하는 새로운 학습 프레임워크를 제시했다.
◦
DarkEventInfer와 MixVidQA라는 새로운 프록시 작업을 통해 모델의 이해 능력을 향상시켰다.