R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
Created by
Haebom
저자
Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
개요
본 논문은 강화 학습(RL)을 통해 다중 모달 대규모 언어 모델(MLLM)의 추론 능력을 향상시키는 새로운 방법인 Share-GRPO를 제안합니다. Share-GRPO는 RL 학습 중 발생하는 희소 보상 및 이점 소멸 문제를 해결하기 위해, 데이터 변환 기술을 통해 질문 공간을 확장하고, 확장된 질문 공간에서 다양한 추론 경로를 탐색하고 공유하는 전략을 사용합니다. 또한, 질문 변형 간 및 내부에서 계층적으로 솔루션 이점을 추정하여 보상 정보를 공유함으로써 상대적 이점을 더 정확하게 추정하고 정책 학습의 안정성을 향상시킵니다. 여섯 가지 널리 사용되는 추론 벤치마크에 대한 광범위한 평가를 통해 제안된 방법의 우수한 성능을 보여줍니다.