Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Bloc : Équilibrer la charge de travail dans le LLM avec le contexte, les connaissances et la planification prédictive

Created by
  • Haebom

Auteur

Wei Da, Evangelia Kalyvianaki

Contour

Cet article présente Block, un framework de planification distribuée qui exploite les informations contextuelles sur les requêtes entrantes pour optimiser l'équilibrage de charge et le provisionnement automatique entre les instances d'un framework de service de modèles de langage à grande échelle. Contrairement aux systèmes de service de modèles existants qui s'appuient sur des ordonnanceurs de tâches monolithiques et heuristiques, Block fonctionne comme un système de planification entièrement distribué, sans état et prédictif, offrant ainsi une faible surcharge, une fiabilité et une évolutivité optimales. Il exploite les propriétés déterministes et prévisibles de l'inférence LLM, telles que la configuration de l'hôte, la longueur des réponses et les performances matérielles, pour prendre des décisions de planification basées sur des métriques prédites avec précision. Les résultats d'évaluation sur un cluster de 12 GPU démontrent que Block surpasse significativement les ordonnanceurs heuristiques, augmentant la capacité de service jusqu'à 16,7 % et réduisant la latence P99 jusqu'à 49,5 %. Ces gains de performances sont constants sur une variété de modèles, de charges de travail et de configurations. Le code et les données sont open source.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre de planification distribuée qui peut améliorer considérablement les performances des systèmes de service de modèles linguistiques à grande échelle.
Augmentez la capacité de service et réduisez la latence en effectuant efficacement l'équilibrage de charge et le provisionnement automatique.
En tirant parti des propriétés de l’inférence LLM, nous permettons une planification précise basée sur des prédictions.
Il est open source et peut être utilisé par d’autres chercheurs.
Limitations:
Comme il n’a été évalué que sur un cluster de 12 GPU, des recherches supplémentaires sont nécessaires pour déterminer comment les performances évolueront sur des clusters plus grands.
Bien que nous ayons effectué des évaluations sur une variété de modèles et de charges de travail, une validation supplémentaire est nécessaire pour garantir la généralisabilité à tous les types de LLM et de charges de travail.
Une évaluation plus approfondie de la stabilité à long terme et de l’évolutivité dans des environnements d’exploitation réels est nécessaire.
👍