Dans cet article, nous proposons une nouvelle méthode de mise en cache de gradient pour les modèles d'encodeur-décodeur (CachED) afin de résoudre les difficultés rencontrées lors de la synthèse de documents longs à l'aide de modèles d'encodeur-décodeur basés sur Transformer, notamment le problème de consommation de mémoire secondaire lors de l'apprentissage. CachED permet un apprentissage de bout en bout en utilisant l'intégralité du document d'entrée sans le tronquer. Il traite les documents d'entrée à l'aide de fenêtres glissantes non superposées, les fusionne dans le décodeur, met en cache les gradients dans le décodeur et les recalcule fragment par fragment via l'encodeur lors de la rétropropagation. Les résultats expérimentaux montrent que le modèle BART peut être étendu avec CachED BART pour atteindre d'excellentes performances sans paramètres supplémentaires tout en traitant plus de 500 000 jetons.