En este artículo, proponemos un novedoso sistema de almacenamiento en caché de gradientes para modelos de codificador-decodificador (CachED) que aborda las dificultades existentes al resumir documentos extensos utilizando modelos de codificador-decodificador basados en Transformer, en concreto, el problema del consumo de memoria secundaria durante el entrenamiento. CachED permite un entrenamiento integral utilizando el documento de entrada completo sin truncarlo. Procesa los documentos de entrada mediante ventanas deslizantes no superpuestas, los fusiona en el decodificador, almacena en caché los gradientes en el decodificador y los recompila fragmento a fragmento a través del codificador durante la retropropagación. Los resultados experimentales muestran que el modelo BART puede extenderse con CachED BART para lograr un rendimiento excelente sin parámetros adicionales al procesar más de 500 000 tokens.