Daily Arxiv

MiniCPM Team, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Xin Cong, Ganqu Cui, Ning Ding, Shengda Fan, Yewei Fang, Zixuan Fu, Wenyu Guan, Yitong Guan, Junshao Guo, Yufeng Han, Bingxiang He, Yuxiang Huang, Baoxi Ji, Cunliang Kong, Qiuzuo Li, Siyuan Li, Wenhao Li, Xin Li, Yanghao Li, Yishan Li, Zhen Li, Dan Liu, Biyuan Lin, Yankai Lin, Xiang Long, Quanyu Lu, Yaxi Lu, Peiyan Luo, Hongya Lyu, Litu Ou, Yinxu Pan, Lushi Pu, Zekai Qu, Qundong Shi, Zijun Song, Jiayuan Su, Zhou Su, Ao Sun, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Zheng Wang, Yesai Wu, Zhenyu Xiao, Jie Xie, Zihao Xie, Xiaoyue Xu, Yukun Yan, Jiarui Yuan, Jinqian Zhang, Kaihuo Zhang, Lei Zhang, Linyue Zhang, Xueren Zhang, Yudi Zhang, Hengyu Zhao, Weilin Zhao, Weilun Zhao, Yuanqian Zhao, Zhi Zheng, Chuyue Zhou, Ge Zhou, Jie Zhou, Wei Zhou, Yanghao Zhou, Zihan Zhou, Zixuan Zhou, Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun

개요

MiniCPM4는 최종 사용자 기기용으로 설계된 고효율 대규모 언어 모델(LLM)입니다. 모델 아키텍처(InfLLM v2), 훈련 데이터(UltraClean, UltraChat v2), 훈련 알고리즘(ModelTunnel v2, chunk-wise rollout, BitCPM), 추론 시스템(CPM.cu)의 네 가지 핵심 영역에서 혁신을 통해 효율성을 달성했습니다. InfLLM v2는 긴 맥락 처리를 위한 사전 채우기 및 디코딩 단계를 가속화하는 훈련 가능한 희소 어텐션 메커니즘입니다. UltraClean과 UltraChat v2는 효율적이고 정확한 사전 훈련 데이터 필터링 및 생성 전략, 포괄적인 지도 학습 미세 조정 데이터셋입니다. 이러한 데이터셋을 통해 8조 개의 훈련 토큰만으로 만족스러운 모델 성능을 달성했습니다. ModelTunnel v2는 효율적인 사전 훈련 전략 검색을 위한 알고리즘이며, chunk-wise rollout과 BitCPM을 통해 기존의 사후 훈련 방법을 개선했습니다. CPM.cu는 희소 어텐션, 모델 양자화, 추측적 샘플링을 통합하여 효율적인 사전 채우기 및 디코딩을 달성합니다. 다양한 기기 요구 사항을 충족하기 위해 매개변수 수가 0.5B 및 8B인 두 가지 버전으로 제공되며, 심층 추론 모드와 비추론 모드 모두에서 사용 가능한 하이브리드 추론 모델 MiniCPM4.1도 함께 제시합니다. 평가 결과, MiniCPM4와 MiniCPM4.1은 유사한 크기의 오픈소스 모델보다 벤치마크에서 우수한 성능을 보였으며, 특히 8B 버전은 긴 시퀀스 이해 및 생성에서 상당한 속도 향상을 보였습니다.

시사점, 한계점

•

시사점:

◦

최종 사용자 기기에서 효율적으로 동작하는 대규모 언어 모델 개발의 가능성을 보여줌.

◦

긴 맥락 처리 속도 향상을 위한 새로운 아키텍처 및 알고리즘 제시.

◦

효율적인 데이터 필터링 및 생성 전략을 통해 훈련 데이터 크기 감소.

◦

다양한 기기 요구 사항을 충족하는 다양한 모델 버전 제공.

◦

유사한 크기의 오픈소스 모델 대비 우수한 성능과 속도 향상.

•

한계점:

◦

MiniCPM4.1의 하이브리드 추론 모델의 성능 및 효율성에 대한 자세한 분석 부족.

◦

제시된 혁신적인 기술들의 일반화 가능성에 대한 추가적인 연구 필요.

◦

다른 LLM과의 더욱 포괄적인 비교 분석 필요.

◦

8조 토큰의 훈련 데이터 규모가 여전히 상당하며, 더욱 적은 데이터로 성능을 유지할 수 있는 방법에 대한 연구 필요.

PDF 보기

Made with Slashpage