Sign In

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Created by
  • Haebom
Category
Empty

저자

Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang

개요

본 논문은 대규모 다중 모달 모델(LMMs)의 추론 능력 향상에 초점을 맞추고 있습니다. 특히, 30억 매개변수의 제한된 아키텍처에서 시각적 인지와 논리적 추론 간의 복잡한 상호작용으로 인해 발생하는 어려움을 해결하는 데 중점을 둡니다. 규칙 기반 강화 학습(RL)을 다중 모달 영역에 적용하는 데 있어 데이터 부족 및 다중 모달 사전 학습으로 인한 추론 능력 저하 문제를 해결하기 위해, 본 논문은 두 단계 프레임워크인 \textbf{\method}를 제안합니다. \textbf{Foundational Reasoning Enhancement (FRE)} 단계는 텍스트 기반 데이터를 이용하여 규칙 기반 RL로 추론 능력을 강화하고, \textbf{Multimodal Generalization Training (MGT)} 단계는 이렇게 향상된 추론 능력을 다중 모달 영역으로 일반화합니다. Qwen2.5-VL-Instruct-3B 모델을 사용한 실험 결과, 다중 모달 및 텍스트 기반 벤치마크에서 기준 모델 대비 각각 4.83%와 4.5%의 성능 향상을 달성했으며, 복잡한 축구 게임 과제에서는 3.63% 향상을 보였습니다. 이는 텍스트 기반 추론 향상을 통해 효과적인 다중 모달 일반화가 가능하며, 비용이 많이 드는 고품질 다중 모달 학습 데이터를 사용하지 않고도 효율적인 방법을 제공함을 보여줍니다.

시사점, 한계점

시사점:
텍스트 기반 추론 향상을 통해 다중 모달 모델의 추론 능력을 효과적으로 향상시킬 수 있음을 보여줌.
고품질 다중 모달 데이터 확보의 어려움을 해결하는 데이터 효율적인 방법 제시.
제한된 매개변수의 LMM에서도 추론 성능 향상 가능성을 제시.
한계점:
제안된 방법의 일반화 성능이 다른 LMM 아키텍처나 다양한 다중 모달 작업에 대해 어떻게 적용될지는 추가 연구가 필요.
FRE 단계에서 사용된 규칙 기반 RL의 설계 및 최적화에 대한 자세한 설명 부족.
사용된 데이터셋과 벤치마크의 한계로 인한 일반화 가능성에 대한 우려.
👍