Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

Created by
  • Haebom

저자

LLM-Core Xiaomi, :, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, Kai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

개요

MiMo-7B는 추론 작업을 위해 설계된 70억 매개변수의 대규모 언어 모델입니다. 전처리 단계에서 세 단계의 데이터 믹싱 전략을 사용하고 25조 토큰으로 사전 훈련하여 기본 모델의 추론 능력을 강화했습니다. 추가적으로 다중 토큰 예측 목표를 사용하여 성능을 향상시키고 추론 속도를 높였습니다. 사후 훈련 단계에서는 130,000개의 검증 가능한 수학 및 프로그래밍 문제 데이터셋을 사용하여 강화 학습을 수행했습니다. 난이도 기반 코드 보상 체계와 전략적 데이터 재샘플링을 통해 희소 보상 문제를 완화하고 훈련을 안정화했습니다. 평가 결과, MiMo-7B-Base는 훨씬 큰 320억 매개변수 모델보다 뛰어난 추론 능력을 보였으며, 강화 학습으로 미세 조정된 MiMo-7B-RL은 수학, 코드 및 일반 추론 작업에서 OpenAI o1-mini를 능가하는 성능을 달성했습니다. 모델 체크포인트는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
70억 매개변수의 상대적으로 작은 크기임에도 불구하고, 320억 매개변수 모델을 능가하는 추론 성능을 달성했습니다.
데이터 전처리 및 믹싱 전략, 다중 토큰 예측, 난이도 기반 코드 보상 체계 등의 효과적인 훈련 기법을 제시했습니다.
강화 학습을 통해 수학, 코드, 일반 추론 작업에서 모두 우수한 성능을 보였습니다.
모델 체크포인트를 공개하여 연구의 재현성과 활용성을 높였습니다.
한계점:
본 논문에서 제시된 훈련 기법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다른 대규모 언어 모델과의 더욱 포괄적인 비교 평가가 필요합니다.
특정 유형의 추론 문제에 대해서는 성능이 제한적일 수 있습니다.
에너지 효율성 및 환경적 영향에 대한 고려가 부족합니다.
👍