Mooncake es una plataforma para Kimi, el principal servicio LLM de Moonshot AI. Mooncake cuenta con una arquitectura distribuida centrada en KVCache que separa los clústeres de precarga y decodificación. Además, aprovecha los recursos infrautilizados de CPU, DRAM y SSD de los clústeres de GPU para implementar una caché KVCache distribuida. En el núcleo de Mooncake se encuentra un programador centrado en KVCache que maximiza el rendimiento efectivo general, a la vez que cumple con los objetivos de nivel de servicio (SLO) relacionados con la latencia. A diferencia de la investigación existente que asume que se procesarán todas las solicitudes, Mooncake presenta dificultades en situaciones de sobrecarga. Para mitigar esto, desarrollamos una política de rechazo temprano basada en predicciones. Los resultados experimentales muestran que Mooncake supera los escenarios de contexto largo. En comparación con los métodos de referencia, Mooncake puede aumentar el rendimiento hasta en un 525 % en ciertos escenarios simulados, cumpliendo con los SLO. En cargas de trabajo reales, la innovadora arquitectura de Mooncake permite a Kimi gestionar hasta un 75 % más de solicitudes.