この論文では、ビジョンと言語の分野で分散ニューラルネットワークアーキテクチャ(DNA)を導入し訓練する方法を紹介します。 DNAは、トランス、MLP、アテンションなどのモジュールとルーターで構成されたプロトアーキテクチャで初期化されます。トークン(またはパッチ)は、任意の順序で任意のモジュールシリーズを通過できます。 DNAは、エキスパートブレンド(Mixture-of-Experts)、深度ブレンド(Mixture-of-Depths)、パラメータ共有などの希少方法の自然な一般化です。 DNAモジュールの計算および通信パターンは、トレーニング中にエンドツーエンドで学習され、各トークン(またはパッチ)の内容とコンテキストによって異なります。これらのパターンは、計算/メモリ効率または負荷分散などの最適化目標に追加された要件に従って形成できます。実験的に、訓練されたDNAが両方の領域で密集基準モデルと競争力があることを示し、データから計算効率/パラメータ共有を学習できることを示します。また、訓練されたDNAの等張連結性と計算パターンを分析して、トークンがモデルを通過する経路がパワー法則に従って分布していることを発見し、一部の経路(または同等にモジュールグループ)が登場専門化を示すことを示しています。最後に、モデルが解釈可能な方法で計算とアクティブなパラメータを割り当てることを学習することを示しています。