Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mooncake: Kiến trúc phân tách lấy KVCache làm trung tâm để phục vụ LLM

Created by
  • Haebom

Tác giả

Nhược Ngọc Tần, Zheming Li, Weiran He, Mingxing Zhang, Yongwei Wu, Weimin Zheng, Xinran Xu

Phác thảo

Mooncake là nền tảng phục vụ cho Kimi, dịch vụ LLM chính do Moonshot AI cung cấp. Mooncake có kiến ​​trúc phân tán lấy KVCache làm trung tâm, tách biệt các cụm điền trước và giải mã. Nó cũng tận dụng các tài nguyên CPU, DRAM và SSD chưa được sử dụng hết của các cụm GPU để triển khai bộ đệm KVCache phân tán. Cốt lõi của Mooncake là bộ lập lịch lấy KVCache làm trung tâm, giúp tối đa hóa thông lượng hiệu quả tổng thể trong khi vẫn đáp ứng các mục tiêu mức dịch vụ (SLO) liên quan đến độ trễ. Trái ngược với nghiên cứu hiện có cho rằng tất cả các yêu cầu sẽ được xử lý, Mooncake gặp khó khăn trong các tình huống quá tải. Để giảm thiểu điều này, chúng tôi đã phát triển chính sách từ chối sớm dựa trên dự đoán. Kết quả thử nghiệm cho thấy Mooncake vượt trội hơn các tình huống ngữ cảnh dài. So với các phương pháp cơ sở, Mooncake có thể tăng thông lượng lên tới 525% trong một số tình huống mô phỏng nhất định trong khi vẫn đáp ứng SLO. Trong khối lượng công việc thực tế, kiến ​​trúc sáng tạo của Mooncake cho phép Kimi xử lý nhiều hơn tới 75% yêu cầu.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng kiến ​​trúc phân tán lấy KVCache làm trung tâm có thể cải thiện đáng kể thông lượng của nền tảng phục vụ LLM.
Sử dụng hiệu quả các tài nguyên chưa được sử dụng hết của cụm GPU để cải thiện hiệu quả hệ thống.
ĐảM bảo tính ổn định của hệ thống trong các tình huống quá tải thông qua các chính sách loại bỏ sớm mang tính dự đoán.
Nó hoạt động tốt trong các tình huống ngữ cảnh dài.
Limitations:
Cần phân tích thêm để xác định sự khác biệt giữa kết quả mô phỏng và kết quả khối lượng công việc thực tế.
Cần nghiên cứu thêm về độ chính xác và tiềm năng tối ưu hóa của các chính sách loại bỏ sớm dựa trên dự đoán.
Cần phải đánh giá hiệu suất và độ ổn định lâu dài trong môi trường vận hành thực tế.
Xác minh khả năng tổng quát là cần thiết cho nhiều mô hình và khối lượng công việc LLM khác nhau.
👍