この論文では、Transformerベースの言語モデルのデコードプロセスを並列化するための新しいアーキテクチャであるStagFormer(Staggered Transformer)を提案します。従来のトランスフォーマーのシーケンシャルデコード方式とは異なり、StagFormerはシーケンス軸に沿って実行を交互にし、モデルの深さに沿ってデコードプロセスを並列化します。これは、 $l$ レイヤーの $i$ 番目の時間ステップトークン表現が $l-1$ レイヤーの $i$ 番目の時間ステップまでのトークン表現に依存するのをやめ、 $i-1$ 番目の時間ステップまでのトークン表現にのみ依存させることによって達成されます。これにより、モデルの他のセクションを並列に実行してデコード速度を上げながら品質を維持することができます。また、重みの共有、限られたウィンドウアテンション、マルチセクションへの拡張、循環モデルの近似など、さまざまな拡張方式を探索します。