Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
Created by
Haebom
저자
Haoyuan Sun, Jiaqi Wu, Bo Xia, Yifu Luo, Yifei Zhao, Kai Qin, Xufei Lv, Tiantian Zhang, Yongzhe Chang, Xueqian Wang
개요
2025년 현재, 인공 일반 지능(AGI) 추구의 중요한 시점에서 강화 학습 미세 조정(RFT)은 대규모 언어 모델(LLM)의 추론 능력 향상에 상당한 잠재력을 보여주었으며, OpenAI-o1 및 DeepSeek-R1과 같은 최첨단 AI 모델 개발로 이어졌습니다. 또한, 다중 모달 대규모 언어 모델(MLLM)의 추론 능력 향상을 위한 RFT의 효율적인 적용은 학계의 폭넓은 관심을 끌고 있습니다. 본 논문에서는 강화 학습 미세 조정이 다중 모달 대규모 언어 모델의 추론 능력을 향상시킨다고 주장합니다. 본 논문은 관련 분야 연구자들이 알아야 할 기본 배경 지식을 자세히 소개하고, MLLM의 추론 능력 향상에 있어 RFT의 개선 사항을 다양한 모달리티, 다양한 작업 및 도메인, 향상된 훈련 알고리즘, 풍부한 벤치마크, 번창하는 엔지니어링 프레임워크 등 5가지 주요 내용으로 정리합니다. 마지막으로, 학계가 고려할 수 있는 미래 연구를 위한 5가지 유망한 방향을 제시합니다. 본 논문은 AGI 발전을 향한 중요한 단계에서 학계에 귀중한 통찰력을 제공하고자 합니다. MLLM을 위한 RFT에 대한 연구 요약은 https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs 에서 확인할 수 있습니다.