Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Created by
  • Haebom

저자

Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang

개요

본 논문은 제한된 매개변수(3B)를 가진 대규모 다중 모달 모델(LMM)의 추론 능력 향상에 초점을 맞추고 있습니다. 규칙 기반 강화 학습(RL)을 활용하여, 텍스트 기반 추론 능력을 우선 향상시킨 후(Foundational Reasoning Enhancement, FRE), 이를 다중 모달 영역으로 일반화하는(Multimodal Generalization Training, MGT) 두 단계 프레임워크인 LMM-R1을 제안합니다. 이를 통해 다중 모달 데이터 부족 및 사전 학습으로 인한 추론 능력 저하 문제를 해결하고자 합니다. Qwen2.5-VL-Instruct-3B 모델을 사용한 실험 결과, 다중 모달 및 텍스트 기반 벤치마크에서 기존 모델 대비 평균 4.83% 및 4.5%의 성능 향상을 달성했으며, 복잡한 축구 경기 과제에서는 3.63%의 성능 향상을 보였습니다. 이는 텍스트 기반 추론 향상이 효과적인 다중 모달 일반화로 이어질 수 있음을 보여주는 결과입니다.

시사점, 한계점

시사점:
제한된 매개변수를 가진 LMM의 추론 능력 향상을 위한 효율적인 방법 제시.
고품질 다중 모달 데이터에 대한 의존성 감소.
텍스트 기반 추론 향상을 통한 다중 모달 일반화 가능성 확인.
규칙 기반 강화 학습의 다중 모달 적용 가능성 제시.
한계점:
제안된 방법의 일반화 성능은 특정 모델(Qwen2.5-VL-Instruct-3B)에 국한될 수 있음.
다른 유형의 다중 모달 데이터 및 과제에 대한 추가적인 실험 필요.
FRE 단계에서 사용된 텍스트 데이터의 질과 양이 최종 성능에 미치는 영향에 대한 추가 분석 필요.
3B 매개변수 모델에 특화된 방법으로, 더 큰 모델에 적용 시 효과가 달라질 수 있음.
👍