Dans cet article, nous proposons une nouvelle architecture de décodeur à traitement parallèle pour résoudre le problème de génération séquentielle de jetons, goulot d'étranglement des modèles autorégressifs. Le décodeur pipeline proposé implémente le traitement parallèle en générant simultanément plusieurs sous-séquences, et génère un nouveau jeton pour chaque sous-séquence à chaque pas de temps. Les résultats expérimentaux obtenus sur plusieurs tâches de génération de texte, telles que la réponse à des questions, la synthèse de texte et l'extraction de mots-clés, montrent que le décodeur pipeline proposé améliore significativement la vitesse de génération tout en permettant un traitement parallèle sans compromettre la qualité de la génération ni consommer de mémoire supplémentaire.