[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BriLLM: Brain-inspired Large Language Model

Created by
  • Haebom

作者

Hai Zhao, Hongqiu Wu, Dongjie Yang, Anni Zou, Jiale Hong

概要

本論文は、TransformerやGPTのような従来の方法とは異なる、脳に触発された大規模言語モデル(BriLLM)を初めて提示します。 BriLLMは、有向グラフ上の信号完全接続フロー(SiFu)定義に基づくニューラルネットワークであり、入力と出力に固有の既存のモデルとは異なり、モデル全体のグラフ内のすべてのノードの解釈可能性を提供します。トークンはグラフのノードとして定義され、信号は「最小抵抗」の原則に従ってノード間を流れます。次のトークンは信号フローの目標となり、モデルサイズが入力および予測長とは無関係であるため、理論的に無限に長いnグラムモデルをサポートします。シグナルフローは、人間の脳の認知パターンに似た再呼び出し活性化とマルチモードサポートの可能性を提供します。現在、中国語版のBriLLM(4000トークン、32次元ノード幅、16トークン長シーケンス予測)が公開されており、GPT-1と同様の性能を示しています。

Takeaways、Limitations

Takeaways:
従来のTransformerベースのモデルとは異なる新しいアーキテクチャの大規模言語モデルの提示
モデル全体の解釈可能性を提供
理論的に無限に長いNグラムモデルのサポート可能性
人間の脳の認知パターンに類似した再呼び出し活性化と多モード支援の可能性を提示
比較的少ないリソースでGPT-1レベルのパフォーマンスを達成
Limitations:
現在公開されているモデルは規模が小さく(4000トークン)、長いシーケンス処理能力が制限されている(16トークン)
より多くの演算能力が必要であり、大規模モデルに拡張したときの性能と効率性の検証が必要
まだ英語を含む他の言語のサポートが不足しています
脳からインスピレーションを受けたと主張するが、実際の脳の動作原理との正確な対応関係についてのさらなる説明が必要である
👍