Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mooncake : une architecture désagrégée centrée sur KVCache pour la diffusion LLM

Created by
  • Haebom

Auteur

Ruoyu Qin, Zheming Li, Weiran He, Mingxing Zhang, Yongwei Wu, Weimin Zheng, Xinran Xu

Contour

Mooncake est une plateforme de service pour Kimi, le principal service LLM fourni par Moonshot AI. Mooncake intègre une architecture distribuée centrée sur KVCache qui sépare les clusters de pré-remplissage et de décodage. Il exploite également les ressources CPU, DRAM et SSD sous-utilisées des clusters GPU pour implémenter un cache KVCache distribué. Au cœur de Mooncake se trouve un ordonnanceur centré sur KVCache qui maximise le débit effectif global tout en respectant les objectifs de niveau de service (SLO) liés à la latence. Contrairement aux recherches existantes qui supposent que toutes les requêtes seront traitées, Mooncake rencontre des difficultés en cas de surcharge. Pour pallier ce problème, nous avons développé une politique de rejet anticipé basée sur la prédiction. Les résultats expérimentaux montrent que Mooncake surpasse les scénarios à contexte long. Comparé aux méthodes de référence, Mooncake peut augmenter le débit jusqu'à 525 % dans certains scénarios simulés tout en respectant les SLO. En conditions réelles, l'architecture innovante de Mooncake permet à Kimi de traiter jusqu'à 75 % de requêtes supplémentaires.

Takeaways, Limitations_

Takeaways:
Nous démontrons qu’une architecture distribuée centrée sur KVCache peut améliorer considérablement le débit d’une plate-forme de service LLM.
Utilisez efficacement les ressources sous-utilisées des clusters GPU pour améliorer l’efficacité du système.
Assurez la stabilité du système dans les scénarios de surcharge grâce à des politiques de rejet précoce prédictives.
Il fonctionne bien dans les scénarios de contexte long.
Limitations:
Une analyse plus approfondie est nécessaire pour déterminer l’écart entre les résultats de la simulation et les résultats réels de la charge de travail.
Des recherches supplémentaires sont nécessaires sur la précision et le potentiel d’optimisation des politiques de rejet précoce basées sur la prédiction.
Une évaluation des performances et de la stabilité à long terme dans des environnements d’exploitation réels est nécessaire.
La vérification de la généralisabilité est nécessaire pour divers modèles LLM et charges de travail.
👍