Bài báo này đề xuất một kỹ thuật cập nhật bộ đệm KV mới, RetroAttention, để giải quyết tình trạng chậm lại trong quá trình suy luận của các mô hình ngôn ngữ quy mô lớn (LLM) trong các tác vụ văn bản dài (ví dụ: suy luận, tạo mã và các cuộc đối thoại nhiều lượt). Không giống như các phương pháp nén bộ đệm KV hiện có chủ yếu tập trung vào ngữ cảnh đầu vào, RetroAttention giải quyết các lỗi chú ý tích lũy bằng cách cập nhật các đầu ra chú ý trong quá khứ bằng cách sử dụng các mục KV mới đến trong các lần giải mã tiếp theo. Việc duy trì bộ đệm đầu ra nhẹ cho phép các truy vấn trong quá khứ truy cập hiệu quả vào các ngữ cảnh có liên quan hơn trong khi vẫn giảm thiểu chi phí độ trễ. Do đó, nó phá vỡ mô hình đầu ra chú ý cố định và cho phép cập nhật liên tục các phép tính gần đúng trước đó. Các thí nghiệm mở rộng trên các điểm chuẩn tạo văn bản dài chứng minh rằng RetroAttention luôn vượt trội hơn các phương pháp nén KV hiện đại (SOTA), cải thiện khả năng phơi nhiễm KV hiệu quả lên tới 1,6 lần và độ chính xác lên tới 21,9%.