LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
Created by
Haebom
저자
Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
개요
본 논문은 제한된 매개변수(3B)를 가진 대규모 다중 모달 모델(LMM)의 추론 능력 향상에 초점을 맞추고 있습니다. 규칙 기반 강화 학습(RL)을 활용하여, 텍스트 기반 추론 능력을 우선 향상시킨 후(Foundational Reasoning Enhancement, FRE), 이를 다중 모달 영역으로 일반화하는(Multimodal Generalization Training, MGT) 두 단계 프레임워크인 LMM-R1을 제안합니다. 이를 통해 다중 모달 데이터 부족 및 사전 학습으로 인한 추론 능력 저하 문제를 해결하고자 합니다. Qwen2.5-VL-Instruct-3B 모델을 사용한 실험 결과, 다중 모달 및 텍스트 기반 벤치마크에서 기존 모델 대비 평균 4.83% 및 4.5%의 성능 향상을 달성했으며, 복잡한 축구 경기 과제에서는 3.63%의 성능 향상을 보였습니다. 이는 텍스트 기반 추론 향상이 효과적인 다중 모달 일반화로 이어질 수 있음을 보여주는 결과입니다.
시사점, 한계점
•
시사점:
◦
제한된 매개변수를 가진 LMM의 추론 능력 향상을 위한 효율적인 방법 제시.
◦
고품질 다중 모달 데이터에 대한 의존성 감소.
◦
텍스트 기반 추론 향상을 통한 다중 모달 일반화 가능성 확인.
◦
규칙 기반 강화 학습의 다중 모달 적용 가능성 제시.
•
한계점:
◦
제안된 방법의 일반화 성능은 특정 모델(Qwen2.5-VL-Instruct-3B)에 국한될 수 있음.
◦
다른 유형의 다중 모달 데이터 및 과제에 대한 추가적인 실험 필요.
◦
FRE 단계에서 사용된 텍스트 데이터의 질과 양이 최종 성능에 미치는 영향에 대한 추가 분석 필요.