本論文は、メモリボトルネックによるモデル拡張性制限の問題を解決するために、トランスフォーマベースのネットワークを独立して学習可能なブロックに変換する新しいフレームワークである$\Textit{DiffusionBlocks}$を提案する。残差接続を動的システム更新と見なし、それをノイズ除去プロセスの更新に変換して各ブロックを独立して学習できるようにします。 Score matching objectiveを活用して各ブロックを一度に1つずつ学習するので、メモリ要件をブロック数に比例して減らすことができます。さまざまなTransformerアーキテクチャ(ビジョン、拡散、自己回帰、循環深さ、マスク拡散)の実験は、$ \ textit {DiffusionBlocks} $がエンドツーエンドトレーニングと同じパフォーマンスを維持しながら実用的なタスクを拡張できることを証明しました。