Mooncake est une plateforme de service pour Kimi, le principal service LLM fourni par Moonshot AI. Mooncake intègre une architecture distribuée centrée sur KVCache qui sépare les clusters de pré-remplissage et de décodage. Il exploite également les ressources CPU, DRAM et SSD sous-utilisées des clusters GPU pour implémenter un cache KVCache distribué. Au cœur de Mooncake se trouve un ordonnanceur centré sur KVCache qui maximise le débit effectif global tout en respectant les objectifs de niveau de service (SLO) liés à la latence. Contrairement aux recherches existantes qui supposent que toutes les requêtes seront traitées, Mooncake rencontre des difficultés en cas de surcharge. Pour pallier ce problème, nous avons développé une politique de rejet anticipé basée sur la prédiction. Les résultats expérimentaux montrent que Mooncake surpasse les scénarios à contexte long. Comparé aux méthodes de référence, Mooncake peut augmenter le débit jusqu'à 525 % dans certains scénarios simulés tout en respectant les SLO. En conditions réelles, l'architecture innovante de Mooncake permet à Kimi de traiter jusqu'à 75 % de requêtes supplémentaires.