Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bộ nhớ đệm KVCache trong thực tế: Đặc điểm và tối ưu hóa bộ nhớ đệm KVCache tại nhà cung cấp đám mây lớn

Created by
  • Haebom

Tác giả

Jiahao Wang, Jinbo Han, Xingda Wei, Sijie Shen, Dingyan Zhang, Chenguang Fang, Rong Chen, Wenyuan Yu, Haibo Chen

Phác thảo

Trong bài báo này, chúng tôi trình bày đặc điểm hệ thống đầu tiên về các mẫu khối lượng công việc KV$ của các nhà cung cấp dịch vụ LLM trong thế giới thực, với giả định rằng bộ nhớ đệm kết quả trung gian (KV$) đóng vai trò quan trọng trong việc cải thiện hiệu suất trong việc cung cấp dịch vụ mô hình ngôn ngữ quy mô lớn (LLM), nhưng các quyết định thiết kế hệ thống như chính sách loại bỏ bộ nhớ đệm phụ thuộc rất nhiều vào khối lượng công việc. Chúng tôi đưa ra một số quan sát chưa được đề cập trong các nghiên cứu trước đây tập trung vào khối lượng công việc tổng hợp: việc tái sử dụng KV$ trên các yêu cầu là không đối xứng, việc tái sử dụng trên các yêu cầu một lượt cũng quan trọng như việc tái sử dụng trên các yêu cầu nhiều lượt, thời gian và xác suất tái sử dụng khác nhau trên tất cả các yêu cầu, nhưng các mẫu có thể dự đoán được đối với các loại yêu cầu cụ thể và kích thước bộ nhớ đệm tổng thể phù hợp với tỷ lệ trúng bộ nhớ đệm lý tưởng. Dựa trên các đặc điểm này, chúng tôi đề xuất một chính sách loại bỏ bộ nhớ đệm nhận biết khối lượng công việc giúp cải thiện hiệu suất dịch vụ trên dữ liệu theo dõi trong thế giới thực, đặc biệt là khi dung lượng bộ nhớ đệm bị hạn chế.

Takeaways, Limitations

Takeaways:
Lần đầu tiên, chúng tôi phân tích một cách có hệ thống các đặc điểm khối lượng công việc lưu trữ đệm KV$ trong môi trường dịch vụ LLM thực tế, khắc phục những hạn chế của các nghiên cứu dựa trên dữ liệu tổng hợp hiện có.
Chúng tôi chứng minh tầm quan trọng của việc tái sử dụng KV$ trong cả yêu cầu một lượt và nhiều lượt, đồng thời khám phá các mẫu tái sử dụng có thể dự đoán được trên các danh mục yêu cầu.
Chúng tôi đề xuất một chính sách loại bỏ bộ nhớ đệm mới có tính đến đặc điểm khối lượng công việc, cho thấy tiềm năng cải thiện hiệu suất trong môi trường thực tế.
Limitations:
Vì kết quả nghiên cứu dựa trên dữ liệu từ một nhà cung cấp dịch vụ LLM cụ thể nên khả năng khái quát hóa sang các nhà cung cấp dịch vụ hoặc kiến trúc LLM khác có thể bị hạn chế.
Hiệu suất của chính sách xóa bộ nhớ đệm được đề xuất cần được xác minh thêm thông qua thử nghiệm rộng rãi trong môi trường thực tế.
Cần có những nghiên cứu toàn diện hơn về nhiều kiến trúc và khối lượng công việc LLM khác nhau.
👍