7B Fully Open Source Moxin-LLM/VLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement
Created by
Haebom
저자
Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Weiyan Shi, Xingchen Xu, Yu Huang, Wei Jiang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang
개요
본 논문은 완전히 오픈소스인 대규모 언어 모델(LLM)인 Moxin 7B를 소개한다. Moxin 7B는 오픈 사이언스, 오픈 소스, 오픈 데이터, 오픈 액세스의 원칙을 준수하여 개발되었으며, 사전 훈련 코드 및 구성, 훈련 및 미세 조정 데이터셋, 중간 및 최종 체크포인트를 모두 공개한다. 기본 모델 사전 훈련 후, 최첨단 사후 훈련 프레임워크와 지시 데이터를 사용하여 Moxin Instruct 모델을 미세 조정하고, DeepSeek R1에서 추출한 사고 연쇄 데이터와 GRPO(Group Relative Policy Optimization)를 활용하여 추론 능력을 향상시킨 Moxin Reasoning 모델을 개발했다. 또한, Moxin 모델을 기반으로 비전 언어 모델을 개발했으며, 제로샷, 퓨샷, 사고 연쇄 평가 등 다양한 평가에서 우수한 성능을 보였다.