Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mooncake: una arquitectura desagregada centrada en KVCache para el servicio LLM

Created by
  • Haebom

Autor

Ruoyu Qin, Zheming Li, Weiran He, Mingxing Zhang, Yongwei Wu, Weimin Zheng, Xinran Xu

Describir

Mooncake es una plataforma para Kimi, el principal servicio LLM de Moonshot AI. Mooncake cuenta con una arquitectura distribuida centrada en KVCache que separa los clústeres de precarga y decodificación. Además, aprovecha los recursos infrautilizados de CPU, DRAM y SSD de los clústeres de GPU para implementar una caché KVCache distribuida. En el núcleo de Mooncake se encuentra un programador centrado en KVCache que maximiza el rendimiento efectivo general, a la vez que cumple con los objetivos de nivel de servicio (SLO) relacionados con la latencia. A diferencia de la investigación existente que asume que se procesarán todas las solicitudes, Mooncake presenta dificultades en situaciones de sobrecarga. Para mitigar esto, desarrollamos una política de rechazo temprano basada en predicciones. Los resultados experimentales muestran que Mooncake supera los escenarios de contexto largo. En comparación con los métodos de referencia, Mooncake puede aumentar el rendimiento hasta en un 525 % en ciertos escenarios simulados, cumpliendo con los SLO. En cargas de trabajo reales, la innovadora arquitectura de Mooncake permite a Kimi gestionar hasta un 75 % más de solicitudes.

Takeaways, Limitations

Takeaways:
Demostramos que una arquitectura distribuida centrada en KVCache puede mejorar significativamente el rendimiento de una plataforma de servicio LLM.
Utilice de forma eficaz los recursos subutilizados de los clústeres de GPU para mejorar la eficiencia del sistema.
Garantizar la estabilidad del sistema en escenarios de sobrecarga mediante políticas predictivas de rechazo temprano.
Funciona bien en escenarios de contexto largos.
Limitations:
Se necesita más análisis para determinar la discrepancia entre los resultados de la simulación y los resultados de la carga de trabajo real.
Se necesita más investigación sobre la precisión y el potencial de optimización de las políticas de rechazo temprano basadas en predicciones.
Se requiere una evaluación del rendimiento y la estabilidad a largo plazo en entornos operativos reales.
Es necesaria la verificación de generalización para varios modelos LLM y cargas de trabajo.
👍