본 논문은 대규모 비디오 언어 모델(LVLM)의 추론 능력을 향상시키기 위한 새로운 프로세스 기반 비디오 강화 미세 조정(VideoP2R) 프레임워크를 제안합니다. VideoP2R은 지각과 추론을 별개의 과정으로 모델링하여 비디오 추론을 개선합니다. 특히, 감독 미세 조정(SFT) 단계에서 고품질의 프로세스 기반 사고 연쇄(CoT) 데이터셋인 VideoP2R-CoT-162K를 생성하며, 강화 학습(RL) 단계에서는 지각과 추론에 대한 별도의 보상을 제공하는 프로세스 기반 그룹 상대 정책 최적화(PA-GRPO) 알고리즘을 도입합니다. 실험 결과, VideoP2R은 7개의 비디오 추론 및 이해 벤치마크 중 6개에서 SOTA 성능을 달성했으며, 프로세스 기반 모델링과 PA-GRPO의 효과를 입증했습니다.
시사점, 한계점
•
시사점:
◦
LVLM의 비디오 추론 능력 향상을 위한 새로운 프레임워크 제시.
◦
지각과 추론을 분리하여 모델링하는 프로세스 기반 접근 방식의 효과 입증.
◦
고품질 CoT 데이터셋 구축 및 PA-GRPO 알고리즘 개발을 통해 성능 향상.
◦
다양한 벤치마크에서 SOTA 달성.
◦
모델의 지각 출력이 후속 추론에 충분한 정보를 제공함을 확인.
•
한계점:
◦
논문에서 구체적인 한계점 언급은 없음. (하지만, 일반적으로 RL 기반 모델의 학습 불안정성, 데이터셋 의존성, 계산 비용 등은 고려해야 할 사항임.)