Dans cet article, nous proposons StagFormer (Staggered Transformer), une nouvelle architecture permettant de paralléliser le décodage des modèles de langage basés sur Transformer. Contrairement à l'approche de décodage séquentiel des Transformers conventionnels, StagFormer parallélise le décodage sur toute la profondeur du modèle en échelonnant l'exécution selon l'axe de séquence. Ceci est réalisé en désactivant la représentation des jetons au i-ième pas de temps de la couche l, qui ne dépend plus des représentations des jetons jusqu'au i-ième pas de temps de la couche l, mais uniquement des représentations des jetons jusqu'au i-1. Cela permet l'exécution parallèle de différentes sections du modèle, améliorant ainsi la vitesse de décodage tout en préservant la qualité. Nous explorons également diverses extensions, notamment le partage de poids, l'attention limitée à la fenêtre, les extensions multi-sections et l'approximation récurrente du modèle.