Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

Created by
  • Haebom

저자

Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang

개요

본 논문은 강화 학습(RL)을 통해 다중 모달 대규모 언어 모델(MLLM)의 사고 연쇄 추론 능력을 향상시키는 새로운 방법을 제시합니다. 기존 연구에서 강화 학습을 통해 'aha moment' 패턴이 나타나는 것을 'emergent property'로 설명하지만, 본 연구는 이러한 패턴이 사전 강화 학습 단계에서도 존재하며, 추론 성능 향상과는 직접적인 상관관계가 없음을 보여줍니다. 따라서, 본 논문에서는 구조화된 사고 연쇄 추론 패턴을 이용한 감독 학습 미세 조정(SFT)을 초기 단계로, 그리고 GRPO 기반 강화 학습을 후속 단계로 하는 2단계 접근 방식을 제안합니다. 실험 결과, 이 방법은 SFT 전용 및 RL 전용 방법보다 다양한 다중 모달 추론 벤치마크에서 일관되게 우수한 성능을 보이며, 특히 7B 모델은 기존 모델 대비 상당한 성능 향상(예: MathVista 66.3% → 73.4%, We-Math 62.9% → 70.4%)을 달성합니다. 3B 모델 또한 여러 7B 모델과 경쟁력 있는 성능을 보입니다. 본 연구는 고급 다중 모달 추론 모델 구축을 위한 실용적인 지침을 제공하며, 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델의 추론 능력 향상을 위한 효과적인 2단계 학습 방식(SFT + RL) 제시
강화 학습 전 단계에서도 존재하는 'aha moment' 패턴과 추론 성능 간의 상관관계 부재 확인
3B 및 7B 규모의 오픈소스 MLLM에서 최첨단 성능 달성
기존 모델 대비 상당한 성능 향상 (MathVista, We-Math 등에서)
실용적인 모델 구축 지침 제공 및 코드 공개
한계점:
제시된 방법의 일반화 성능에 대한 추가 연구 필요
다른 유형의 다중 모달 데이터 및 추론 과제에 대한 확장성 검증 필요
'aha moment' 패턴의 본질에 대한 추가적인 탐구 필요
👍