Sign In

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Created by
  • Haebom
Category
Empty

저자

Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin

개요

본 논문은 강화학습(RL)을 이용하여 다중 모달 대규모 언어 모델(MLLM)의 추론 능력을 향상시키는 방법을 제시합니다. 기존의 RL 기반 훈련이 질문 및 반성과 같은 복잡한 추론 능력을 활성화하는 데 어려움을 겪는다는 점을 고려하여, 고품질의 다중 모달 추론 데이터 부족 문제를 해결하기 위해 고품질 다중 모달 Chain-of-Thought (CoT) 데이터셋을 생성합니다. 기존 MLLM과 DeepSeek-R1을 활용하여 모달 연결 및 데이터 필터링을 통해 200K 크기의 Vision-R1-cold 데이터셋을 생성하고, 이를 Vision-R1 모델의 초기화 데이터로 사용합니다. 과도한 추론으로 인한 최적화 문제를 완화하기 위해 Progressive Thinking Suppression Training (PTST) 전략과 Group Relative Policy Optimization (GRPO)를 제안하고, 10K 크기의 다중 모달 수학 데이터셋을 이용하여 모델의 정확하고 복잡한 추론 과정 학습 능력을 점진적으로 개선합니다. 실험 결과, 다양한 다중 모달 수학 추론 벤치마크에서 평균 6%의 성능 향상을 달성했으며, MathVista 벤치마크에서 73.5%의 정확도를 기록하여 OpenAI O1과의 성능 차이를 0.4%로 줄였습니다. 데이터셋과 코드는 공개될 예정입니다.

시사점, 한계점

시사점:
강화학습을 활용하여 MLLM의 추론 능력 향상 가능성을 제시.
모달 연결 및 데이터 필터링을 통한 고품질 다중 모달 CoT 데이터셋 생성 방법 제시.
PTST 전략과 GRPO를 이용한 과도한 추론 문제 해결 방안 제시.
다양한 다중 모달 수학 추론 벤치마크에서 우수한 성능 달성.
데이터셋과 코드 공개를 통한 연구 재현성 확보.
한계점:
생성된 데이터셋의 품질에 대한 객관적인 평가 필요.
PTST 전략과 GRPO의 일반화 성능에 대한 추가적인 연구 필요.
OpenAI O1과의 성능 차이가 아직 존재.
다른 유형의 추론 문제에 대한 일반화 성능 검증 필요.
👍