Trong bài báo này, chúng tôi trình bày đặc điểm hệ thống đầu tiên về các mẫu khối lượng công việc KV$ của các nhà cung cấp dịch vụ LLM trong thế giới thực, với giả định rằng bộ nhớ đệm kết quả trung gian (KV$) đóng vai trò quan trọng trong việc cải thiện hiệu suất trong việc cung cấp dịch vụ mô hình ngôn ngữ quy mô lớn (LLM), nhưng các quyết định thiết kế hệ thống như chính sách loại bỏ bộ nhớ đệm phụ thuộc rất nhiều vào khối lượng công việc. Chúng tôi đưa ra một số quan sát chưa được đề cập trong các nghiên cứu trước đây tập trung vào khối lượng công việc tổng hợp: việc tái sử dụng KV$ trên các yêu cầu là không đối xứng, việc tái sử dụng trên các yêu cầu một lượt cũng quan trọng như việc tái sử dụng trên các yêu cầu nhiều lượt, thời gian và xác suất tái sử dụng khác nhau trên tất cả các yêu cầu, nhưng các mẫu có thể dự đoán được đối với các loại yêu cầu cụ thể và kích thước bộ nhớ đệm tổng thể phù hợp với tỷ lệ trúng bộ nhớ đệm lý tưởng. Dựa trên các đặc điểm này, chúng tôi đề xuất một chính sách loại bỏ bộ nhớ đệm nhận biết khối lượng công việc giúp cải thiện hiệu suất dịch vụ trên dữ liệu theo dõi trong thế giới thực, đặc biệt là khi dung lượng bộ nhớ đệm bị hạn chế.