Trong bài báo này, chúng tôi đề xuất LagKV, một chiến lược nén KV mới không dựa trên trọng số chú ý, để giải quyết vấn đề tăng kích thước bộ nhớ đệm khóa-giá trị (KV) trong suy luận văn bản dài cho các mô hình ngôn ngữ quy mô lớn. Trong khi các phương pháp sử dụng trọng số chú ý hiện tại đòi hỏi những thay đổi lớn về cơ sở hạ tầng suy luận và chi phí tính toán đáng kể, LagKV đạt được hiệu quả nén mà không cần bất kỳ tính toán chú ý nào chỉ bằng cách sử dụng phép so sánh giữa các KV. Trên kết quả chuẩn RULER, LagKV vượt trội hơn SnapKV và StreamingLLM, và đặc biệt, nó vượt trội hơn phương pháp sử dụng trọng số chú ý $H_2O$ hơn 50% trong tác vụ truy xuất mật khẩu 64 ký tự. Mã nguồn có sẵn trên GitHub.