本論文は、長文コンテキストタスク(推論、コード生成、多重回転対話など)における大規模言語モデル(LLM)の推論速度低下の問題を解決するために、RetroAttentionという新しいKVキャッシュ更新技術を提案します。既存のKVキャッシュ圧縮方法が主に入力コンテキストに集中するのとは異なり、RetroAttentionは、後続の復号化ステップで新しく到着するKVエントリを使用して過去のアテンション出力を修正することによって累積されるアテンションエラーを解決します。軽量出力キャッシュを維持することで、過去のクエリがより関連性のあるコンテキストに効率的にアクセスできるようにしながら、最小限の遅延時間オーバーヘッドしか発生しません。その結果、固定アテンション出力パラダイムを破り、以前の近似値を継続的に修正できるようになる。長期生成ベンチマークの広範な実験により、RetroAttentionが最先端(SOTA)KV圧縮方法より一貫して性能に優れ、有効KV露出を最大1.6倍、精度を最大21.9%向上させることを示す。