Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MiniCPM4: Ultra-Efficient LLMs on End Devices

Created by
  • Haebom

作者

MiniCPM Team、Chaojun Xiao、Yuxuan Li、Xu Han、Yuzhuo Bai、Jie Cai、Haotian Chen、Wentong Chen、Xin Cong、Gangqu Cui、Ning Ding、Shengda Fan、Yewei Fang、Zixuan Fu、Wenyu Guan、Yitong Guan、Junshao Baoxi Ji, Cunliang Kong, Qiuzuo Li, Siyuan Li, Wenhao Li, Xin Li, Yanghao Li, Yishan Li, Zhen Li, Dan Liu, Biyuan Lin, Yankai Lin, Xiang Long, Quanyu Lu, Yaxi Lu, Peiyan Luo, Hongya Lyu, Litu Ou, Litu Ou Zijun Song, Jiayuan Su, Zhou Su, Ao Sun, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Zheng Wang, Yesai Wu, Zhenyu Xiao, Jie Xie, Zihao Xie, Xiaoyue Zhang, Kaihuo Zhang, Lei Zhang, Linyue Zhang, Xueren Zhang, Yudi Zhang, Hengyu Zhao, Weilin Zhao, Weilun Zhao, Yuanqian Zhao, Zhi Zheng, Chuyue Zhou, Ge Zhou, Jie Zhou, Wei Zhou, Yang Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun

概要

MiniCPM4は、エンドユーザーデバイス用に設計された高効率で大規模な言語モデル(LLM)です。モデルアーキテクチャ(InfLLM v2)、トレーニングデータ(UltraClean、UltraChat v2)、トレーニングアルゴリズム(ModelTunnel v2、chunk-wise rollout、BitCPM)、推論システム(CPM.cu)の4つの重要な分野で革新を通じて効率を達成しました。 InfLLM v2は、長いコンテキスト処理のためのプリフィルとデコードの段階を加速するトレーニング可能なスパースアテンションメカニズムです。 UltraCleanとUltraChat v2は、効率的で正確な事前トレーニングデータのフィルタリングと生成戦略、包括的なマップ学習微調整データセットです。これらのデータセットは、8兆のトレーニングトークンだけで満足のいくモデルパフォーマンスを達成しました。 ModelTunnel v2は効率的な事前トレーニング戦略を検索するためのアルゴリズムであり、チャンクワイズロールアウトとBitCPMを使用して既存のポストトレーニング方法を改善しました。 CPM.cuは、希少アテンション、モデル量子化、推測サンプリングを統合して、効率的なプリフィルとデコードを実現します。さまざまなデバイス要件を満たすために、パラメータ数が0.5Bと8Bの2つのバージョンで提供されています。ディープ推論モードと非推論モードの両方で利用可能なハイブリッド推論モデルMiniCPM4.1も付属しています。評価の結果、MiniCPM4とMiniCPM4.1は、同じサイズのオープンソースモデルよりもベンチマークで優れた性能を示しました。

Takeaways、Limitations

Takeaways:
エンドユーザー端末で効率的に動作する大規模言語モデルの開発の可能性を示した。
長い文脈処理速度を向上させるための新しいアーキテクチャとアルゴリズムの提示
効率的なデータフィルタリングと生成戦略によるトレーニングデータサイズの削減
さまざまなデバイス要件を満たすさまざまなモデルバージョンを提供します。
同様のサイズのオープンソースモデルと比較して優れた性能とスピードアップ。
Limitations:
MiniCPM4.1のハイブリッド推論モデルの性能と効率の詳細な分析の欠如
提示された革新的な技術の一般化の可能性に関するさらなる研究の必要性。
他のLLMとのより包括的な比較分析が必要です。
8兆トークンの訓練データ規模が依然として相当であり、より少ないデータで性能を維持できる方法に関する研究が必要。
👍