Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving

Created by
  • Haebom

作者

楊之翔、陳明李、魏阿蘇、明興昌、龍浩圭、鳳凰晋、錦昌慶

概要

Mooncakeは、Moonshot AIが提供する主要なLLMサービスであるKimiのためのサービスプラットフォームです。 Mooncakeは、プリフィルクラスタとデコーディングクラスタを分離するKVCache中心の分散アーキテクチャを備えています。また、GPUクラスタの利用率が低いCPU、DRAM、SSDリソースを活用してKVCacheの分散キャッシュを実現します。 Mooncakeの中心は、全体的な効果的なスループットを最大化しながら、遅延時間関連のサービスレベル目標(SLO)を満たすKVCache中心のスケジューラです。すべての要求が処理されるという既存の研究とは異なり、Mooncakeは過負荷シナリオによる困難に直面しています。これを軽減するために、予測ベースの早期拒否方針を策定しました。実験の結果、Mooncakeは長いコンテキストシナリオで優れたパフォーマンスを示しています。基準方法と比較して、Mooncakeは、特定のシミュレーションシナリオでSLOに準拠しながらスループットを最大525%まで増加させることができます。実際のワークロードでMooncakeの革新的なアーキテクチャにより、Kimiは75%の要求を処理できます。

Takeaways、Limitations

Takeaways:
KVCache中心の分散アーキテクチャによりLLMサービングプラットフォームのスループットを大幅に向上できることを示した。
GPUクラスタの低活用資源を効果的に活用し、システム効率を向上
予測ベースの早期拒否方針による過負荷シナリオにおけるシステム安定性の確保
長いコンテキストシナリオで優れたパフォーマンスを示しています。
Limitations:
シミュレーション結果と実際のワークロード結果との間の差異に関する追加分析の必要性
予測ベースの早期拒否方針の精度と最適化の可能性に関するさらなる研究が必要
実稼働環境における長期的な性能と安定性の評価が必要
様々なLLMモデルとワークロードの一般化可能性検証が必要
👍