Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Apprivoiser le chaos : mise à l'échelle automatique coordonnée pour l'inférence LLM hétérogène et désagrégée
Created by
Haebom
Auteur
Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
Contour
Cet article propose HeteroScale, un nouveau framework de mise à l'échelle automatique permettant de surmonter les limites des approches de mise à l'échelle automatique existantes dans un système de service distribué basé sur une architecture de pré-remplissage-décodage (P/D) pour les grands modèles de langage (LLM). HeteroScale combine un ordonnanceur topologique qui s'adapte aux contraintes matérielles et réseau hétérogènes avec une nouvelle politique basée sur des métriques, issue de recherches empiriques approfondies sur les signaux de mise à l'échelle automatique en environnements réels. Cela garantit une gestion efficace et adaptative des ressources tout en maintenant un équilibre entre les phases de pré-remplissage et de décodage. En déployant HeteroScale dans un environnement de production à grande échelle avec des dizaines de milliers de GPU, nous démontrons une amélioration de 26,6 % de l'utilisation moyenne des GPU et des centaines de milliers d'heures GPU économisées quotidiennement, atteignant ainsi des objectifs de niveau de service (SLOA) rigoureux.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons un cadre de mise à l'échelle automatique efficace au service LLM qui prend en compte les contraintes matérielles et réseau hétérogènes.
◦
Application de politiques fondées sur des indicateurs vérifiées par des recherches empiriques à grande échelle basées sur des environnements opérationnels réels.
◦
Amélioration de l'efficacité des ressources en maintenant un équilibre entre les étapes de pré-remplissage et de décodage de l'architecture distribuée P/D et en améliorant l'utilisation du GPU.
◦
Validation de l'efficacité réelle dans des environnements d'exploitation à grande échelle utilisant des dizaines de milliers de GPU.
•
Limitations:
◦
Les performances d'HeteroScale peuvent être optimisées pour une architecture distribuée P/D et un environnement d'exploitation spécifiques, et peuvent ne pas être généralisées à d'autres architectures ou environnements.
◦
Le document ne contient pas de description détaillée de la politique basée sur les métriques utilisée ni de la mise en œuvre du planificateur tenant compte de la topologie.
◦
Manque d’analyse comparative avec d’autres frameworks de mise à l’échelle automatique.