본 논문은 장문 맥락 작업(추론, 코드 생성, 다중 회전 대화 등)에서의 대규모 언어 모델(LLM)의 추론 속도 저하 문제를 해결하기 위해 RetroAttention이라는 새로운 KV 캐시 업데이트 기법을 제안한다. 기존 KV 캐시 압축 방법들이 주로 입력 맥락에 집중하는 것과 달리, RetroAttention은 후속 디코딩 단계에서 새롭게 도착하는 KV 항목을 사용하여 과거 어텐션 출력을 수정함으로써 누적되는 어텐션 오류를 해결한다. 경량 출력 캐시를 유지하여 과거 쿼리가 더 관련성 있는 맥락에 효율적으로 접근할 수 있도록 하면서 최소한의 지연 시간 오버헤드만 발생시킨다. 결과적으로 고정된 어텐션 출력 패러다임을 깨고 이전 근사값을 지속적으로 수정할 수 있게 된다. 장문 생성 벤치마크에 대한 광범위한 실험을 통해 RetroAttention이 최첨단(SOTA) KV 압축 방법보다 일관되게 성능이 우수하며, 유효 KV 노출을 최대 1.6배, 정확도를 최대 21.9% 향상시키는 것을 보여준다.