この論文では、Transformerベースのエンコーダ - デコーダモデルを使用した長い文書の要約で発生する従来の困難、すなわちトレーニング中の二次的なメモリ消費の問題を解決するための新しい方法であるCachED(Gradient Caching for Encoder-Decoderモデル)を提案します。 CachEDは、入力文書を切り取ることなく、文書全体を使用してエンドツーエンドのトレーニングを可能にします。重なり合うスライドウィンドウを使用して入力文書を処理し、デコーダで融合する方式を使用し、逆伝播過程で勾配をデコーダにキャッシュし、エンコーダを介してチャンク単位で再計算して伝達します。実験の結果、BARTモデルをCachED BARTに拡張して50万トークン以上を処理しながら、追加のパラメータなしで優れた性能を達成しました。