Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SpikingBrain Technical Report: Spiking Brain-inspired Large Models

Created by
  • Haebom

作者

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li

概要

本論文は、既存のTransformerベースの大規模言語モデルの効率性ボトルネック(計算量の二次的増加、メ​​モリの線形的増加)を解決するために脳に触発されたSpikingBrainモデルを提案する。 MetaX GPUクラスターを活用して、線形およびハイブリッド線形アテンションアーキテクチャ、効率的な変換ベースの学習パイプライン、専用スパイクコーディングフレームワーク、カスタム学習フレームワーク、並列処理戦略など、3つの側面に集中し、SpikingBrain-7B(線形LLM)およびSpikingBrain-76B(ハイブリッド線形MoE)を開発。これらのモデルは、非NVIDIAプラットフォームで大規模なLLM開発の可能性を示しており、オープンソーストランスフォーマー基準モデルと同様のパフォーマンスをはるかに少ないトークン(約150B)で達成します。特に、長いシーケンス学習効率を大幅に向上させ(部分的に)一定のメモリとイベントベースのスパイキング動作で推論を実行する。たとえば、SpikingBrain-7Bは、4Mトークンシーケンスで最初のトークン生成時間を100倍以上短縮します。数百のMetaX C550 GPUで数週間安定した学習を維持し、7Bモデルは23.4%のモデルFLOPs利用率を達成し、69.15%のスパース性を介して低電力動作を可能にします。

Takeaways、Limitations

Takeaways:
非NVIDIAプラットフォームにおける大規模LLM開発の可能性の提示
脳インスピレーションモデルを活用した長文処理効率の向上
従来のTransformerベースモデルと比較した改善された学習と推論効率(特に長いシーケンス処理)
低電力動作可能性
優れた最初のトークン生成速度
Limitations:
MetaX GPUクラスタに特化したシステムで、他のプラットフォームへの移植性検証が必要
提示されたモデルの性能比較の対象はオープンソーストランスフォーマー基準モデルに限定されている。さまざまな最新モデルとの比較分析が必要
SpikingBrainモデルの一般化性能と様々なタスクへの適用性に関するさらなる研究が必要
モデルのサイズ(7B、76B)が他の大規模言語モデルと比較した場合、中規模にとどまるため、大規模なモデルの開発とパフォーマンスの評価が必要です
👍