Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

Created by
  • Haebom

저자

Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

개요

MiMo-7B는 추론 작업을 위해 설계된 7B 파라미터의 대규모 언어 모델입니다. 전처리 단계에서 향상된 데이터 전처리 파이프라인과 3단계 데이터 믹싱 전략을 사용하여 기본 모델의 추론 능력을 강화했습니다. 25조 토큰으로 사전 훈련된 MiMo-7B-Base는 향상된 성능과 빠른 추론 속도를 위해 Multi-Token Prediction 목표를 추가적으로 사용합니다. 사후 훈련 단계에서는 130,000개의 검증 가능한 수학 및 프로그래밍 문제 데이터셋을 강화 학습에 사용하며, 희소 보상 문제를 완화하기 위해 난이도 기반 코드 보상 체계를 통합하고, 훈련 안정성을 위해 전략적 데이터 재샘플링을 적용했습니다. 광범위한 평가 결과, MiMo-7B-Base는 훨씬 큰 32B 모델보다 뛰어난 추론 잠재력을 보여주었으며, 최종 RL 조정 모델인 MiMo-7B-RL은 수학, 코드 및 일반 추론 작업에서 OpenAI o1-mini를 능가하는 성능을 달성했습니다. 모델 체크포인트는 https://github.com/xiaomimim/MiMo 에서 이용 가능합니다.

시사점, 한계점

시사점:
7B 파라미터의 상대적으로 작은 크기임에도 불구하고, 큰 모델들을 능가하는 추론 성능을 달성하여 모델 크기와 성능 간의 상관관계에 대한 새로운 시각을 제공합니다.
데이터 전처리 및 믹싱 전략, Multi-Token Prediction, 난이도 기반 코드 보상 체계 등의 기법들이 추론 성능 향상에 효과적임을 보여줍니다.
개방형 모델 체크포인트 제공으로 연구 및 응용 분야에 기여할 수 있습니다.
한계점:
논문에서 제시된 데이터셋의 구체적인 구성 및 특징에 대한 설명이 부족합니다.
다양한 종류의 추론 작업에 대한 일반화 성능에 대한 추가적인 평가가 필요합니다.
모델의 에너지 효율성 및 추론 속도에 대한 자세한 분석이 부족합니다.
👍