Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SpikingBrain: Spiking Brain-inspired Large Models

Created by
  • Haebom

作者

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Han Xu, Zehao Liu, Bohan Sun, Yuhong Chou, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li

概要

本稿では、トランスベースの大規模言語モデルの効率性の問題を解決するために脳に触発されたSpikingBrainモデルを紹介します。このモデルは長文コンテキスト処理のために設計されており、MetaX GPUクラスタを活用して線形およびハイブリッド線形アテンションアーキテクチャ、効率的なトレーニングパイプライン、特殊スパイクコーディングフレームワーク、カスタムトレーニングフレームワークなどを実装しました。 SpikingBrain-7BおよびSpikingBrain-76Bモデルは、オープンソーストランスモデルと同様の性能を示し、長いシーケンストレーニング効率を向上させ、部分的に定数メモリを使用し、イベントベースのスパイキング動作を示す推論を提供します。また、100倍以上の速度向上と69.15%の希少性を達成し、低電力動作を可能にします。

Takeaways、Limitations

Takeaways:
脳に触発されたアーキテクチャにより、大規模な言語モデルの効率を向上させます。
非NVIDIAプラットフォームでの大規模言語モデルの訓練の可能性を示しています。
長いシーケンス処理と低電力動作の性能向上を達成
スパイクベースのコンピューティングの可能性を提示します。
Limitations:
本論文で提供する具体的な性能指標と比較対象に関する詳細情報の欠如
MetaX ハードウェアへの依存性。
新しいアーキテクチャの広範な評価が必要
脳に触発されたモデルの一般化と適用性に関するさらなる研究が必要です。
👍