Trong bài báo này, chúng tôi đề xuất AirCache, một phương pháp nén bộ nhớ đệm KV mới để tăng tốc suy luận của các mô hình ngôn ngữ thị giác quy mô lớn (LVLM). LVLM có khả năng suy luận và khái quát hóa tuyệt vời, nhưng chúng đòi hỏi chi phí tính toán đáng kể để xử lý nhiều mã thông báo thị giác và tạo ra các đầu ra ngữ cảnh dài, dẫn đến nhu cầu quá mức đối với bộ nhớ đệm KV. AirCache nghiên cứu một cách có hệ thống các mối tương quan giữa mã thông báo thị giác và văn bản, tìm thấy sự dư thừa đáng kể trong các mã thông báo thị giác được lưu trong bộ nhớ đệm và loại bỏ chúng một cách chiến lược để tăng tốc đáng kể việc tạo ngữ cảnh trong khi vẫn duy trì hiệu suất mô hình. Các thành phần chính bao gồm các cửa sổ quan sát ưu tú để đánh giá tầm quan trọng của các thành phần thị giác, mô hình hóa mức độ liên quan liên phương thức mạnh mẽ với tính nhất quán đa chế độ xem được cải thiện, và chiến lược phân bổ ngân sách theo từng lớp thích ứng, khai thác sức mạnh và tính bất đối xứng của phân phối tầm quan trọng của mã thông báo. Các đánh giá toàn diện trên một số LVLM và điểm chuẩn cho thấy AirCache đạt được hiệu suất tương tự so với bộ nhớ đệm đầy đủ trong khi chỉ duy trì 10% bộ nhớ đệm KV thị giác, giảm độ trễ giải mã từ 29% đến 66% cho các kích thước lô và độ dài dấu nhắc khác nhau. Đặc biệt, khi tỷ lệ lưu giữ bộ nhớ đệm giảm, hiệu suất sẽ được cải thiện hơn nữa so với các phương pháp hiện có.