Mooncakeは、Moonshot AIが提供する主要なLLMサービスであるKimiのためのサービスプラットフォームです。 Mooncakeは、プリフィルクラスタとデコーディングクラスタを分離するKVCache中心の分散アーキテクチャを備えています。また、GPUクラスタの利用率が低いCPU、DRAM、SSDリソースを活用してKVCacheの分散キャッシュを実現します。 Mooncakeの中心は、全体的な効果的なスループットを最大化しながら、遅延時間関連のサービスレベル目標(SLO)を満たすKVCache中心のスケジューラです。すべての要求が処理されるという既存の研究とは異なり、Mooncakeは過負荷シナリオによる困難に直面しています。これを軽減するために、予測ベースの早期拒否方針を策定しました。実験の結果、Mooncakeは長いコンテキストシナリオで優れたパフォーマンスを示しています。基準方法と比較して、Mooncakeは、特定のシミュレーションシナリオでSLOに準拠しながらスループットを最大525%まで増加させることができます。実際のワークロードでMooncakeの革新的なアーキテクチャにより、Kimiは75%の要求を処理できます。