Bài báo này đề xuất một khuôn khổ đồng tối ưu hóa hệ thống thuật toán, FreeKV, để giải quyết các thách thức triển khai của các mô hình ngôn ngữ quy mô lớn (LLM) với các cửa sổ ngữ cảnh ngày càng lớn. Các ngữ cảnh dài của LLM đặt ra những thách thức triển khai do kích thước ngày càng tăng của bộ đệm KV. Các phương pháp nén, loại bỏ và tìm kiếm bộ đệm KV hiện tại có độ chính xác hoặc hiệu quả kém. FreeKV tối ưu hóa quy trình lựa chọn và thu hồi KV thông qua tìm kiếm dự đoán và các hiệu chỉnh được tinh chỉnh. Nó giảm thiểu việc truyền dữ liệu và cải thiện hiệu quả thông qua bố cục KV lai giữa bộ nhớ CPU và GPU và thu hồi phát trực tuyến đệm đôi. Kết quả thử nghiệm chứng minh rằng FreeKV đạt tốc độ nhanh hơn tới 13 lần so với phương pháp tìm kiếm KV hiệu suất tốt nhất, đồng thời duy trì độ chính xác gần như không mất dữ liệu trong nhiều tình huống và mô hình khác nhau.