Mooncake là nền tảng phục vụ cho Kimi, dịch vụ LLM chính do Moonshot AI cung cấp. Mooncake có kiến trúc phân tán lấy KVCache làm trung tâm, tách biệt các cụm điền trước và giải mã. Nó cũng tận dụng các tài nguyên CPU, DRAM và SSD chưa được sử dụng hết của các cụm GPU để triển khai bộ đệm KVCache phân tán. Cốt lõi của Mooncake là bộ lập lịch lấy KVCache làm trung tâm, giúp tối đa hóa thông lượng hiệu quả tổng thể trong khi vẫn đáp ứng các mục tiêu mức dịch vụ (SLO) liên quan đến độ trễ. Trái ngược với nghiên cứu hiện có cho rằng tất cả các yêu cầu sẽ được xử lý, Mooncake gặp khó khăn trong các tình huống quá tải. Để giảm thiểu điều này, chúng tôi đã phát triển chính sách từ chối sớm dựa trên dự đoán. Kết quả thử nghiệm cho thấy Mooncake vượt trội hơn các tình huống ngữ cảnh dài. So với các phương pháp cơ sở, Mooncake có thể tăng thông lượng lên tới 525% trong một số tình huống mô phỏng nhất định trong khi vẫn đáp ứng SLO. Trong khối lượng công việc thực tế, kiến trúc sáng tạo của Mooncake cho phép Kimi xử lý nhiều hơn tới 75% yêu cầu.