Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
Created by
Haebom
저자
Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Yao Hu, Shaohui Lin
개요
본 논문은 강화학습(RL)을 이용하여 다중 모달 대규모 언어 모델(MLLM)의 추론 능력을 향상시키는 방법을 제시합니다. 기존의 RL 기반 훈련이 고품질의 다중 모달 추론 데이터 부족으로 인해 질문 및 반성과 같은 복잡한 추론 능력을 활성화하는 데 어려움을 겪는다는 점을 지적하며, 이를 해결하기 위해 Vision-R1이라는 새로운 MLLM을 제안합니다. Vision-R1은 기존 MLLM과 DeepSeek-R1을 활용하여 모달 연결 및 데이터 필터링을 통해 20만 개의 다중 모달 Chain-of-Thought(CoT) 데이터셋(Vision-R1-cold 데이터셋)을 생성하고, 이를 초기화 데이터로 사용합니다. 또한, 과도한 추론으로 인한 최적화 문제를 해결하기 위해 Progressive Thinking Suppression Training(PTST) 전략과 Group Relative Policy Optimization(GRPO)을 제안하며, 1만 개의 다중 모달 수학 데이터셋을 사용하여 모델의 추론 능력을 점진적으로 향상시킵니다. 실험 결과, 다양한 다중 모달 수학 추론 벤치마크에서 평균 6%의 성능 향상을 달성했으며, MathVista 벤치마크에서 73.5%의 정확도를 기록하여 OpenAI O1과 근소한 차이를 보였습니다. 데이터셋과 코드는 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
강화학습을 통해 MLLM의 추론 능력을 효과적으로 향상시킬 수 있음을 보여줌.
◦
기존 MLLM과 RL 에이전트를 활용하여 고품질의 다중 모달 추론 데이터셋을 효율적으로 생성하는 방법 제시.
◦
PTST 및 GRPO와 같은 새로운 훈련 전략을 통해 과도한 추론 문제를 완화하고 성능 향상을 달성.
◦
다양한 다중 모달 수학 추론 벤치마크에서 우수한 성능을 달성, 선도적인 모델과 경쟁력 있는 결과 제시.
•
한계점:
◦
생성된 다중 모달 CoT 데이터셋의 품질에 대한 객관적인 평가 부족.
◦
PTST와 GRPO 전략의 일반화 가능성 및 다른 작업에 대한 적용성에 대한 추가 연구 필요.
◦
OpenAI O1과의 성능 차이가 여전히 존재하며, 추가적인 성능 향상을 위한 연구가 필요.
◦
특정 수학 문제 해결에 집중되어 있어 다른 유형의 추론 문제에 대한 일반화 성능은 추가 검증 필요.