Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

7B Fully Open Source Moxin-LLM/VLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement

Created by
  • Haebom

저자

Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Weiyan Shi, Xingchen Xu, Yu Huang, Wei Jiang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang

개요

본 논문은 완전히 오픈소스인 대규모 언어 모델(LLM)인 Moxin 7B를 소개한다. Moxin 7B는 오픈 사이언스, 오픈 소스, 오픈 데이터, 오픈 액세스의 원칙을 준수하여 개발되었으며, 사전 훈련 코드 및 구성, 훈련 및 미세 조정 데이터셋, 중간 및 최종 체크포인트를 모두 공개한다. 기본 모델 사전 훈련 후, 최첨단 사후 훈련 프레임워크와 지시 데이터를 사용하여 Moxin Instruct 모델을 미세 조정하고, DeepSeek R1에서 추출한 사고 연쇄 데이터와 GRPO(Group Relative Policy Optimization)를 활용하여 추론 능력을 향상시킨 Moxin Reasoning 모델을 개발했다. 또한, Moxin 모델을 기반으로 비전 언어 모델을 개발했으며, 제로샷, 퓨샷, 사고 연쇄 평가 등 다양한 평가에서 우수한 성능을 보였다.

시사점, 한계점

시사점:
완전히 오픈소스인 LLM을 제공하여 연구 및 혁신을 촉진한다.
오픈 사이언스 원칙을 준수하여 투명성과 재현성을 높인다.
다양한 미세 조정 기법을 통해 제로샷, 퓨샷, 추론 능력을 향상시킨 모델을 제공한다.
비전 언어 모델까지 확장하여 활용 범위를 넓힌다.
한계점:
논문에서 언급된 성능 향상의 구체적인 수치 및 다른 모델과의 비교 분석이 부족하다.
Moxin 모델의 잠재적인 안전성 문제 및 편향에 대한 논의가 미흡하다.
사용된 데이터셋의 출처 및 품질에 대한 자세한 설명이 부족하다.
장기적인 유지보수 및 커뮤니티 지원 계획에 대한 언급이 없다.
👍