Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Servir efficacement les grands modèles multimodaux grâce à la désagrégation EPD

Created by
  • Haebom

Auteur

Gursimran Singh, Xinglu Wang, Yifan Hu, Timothy Yu, Linzi Xing, Wei Jiang, Zhefeng Wang, Xiaolong Bai, Yi Li, Ying Xiong, Yong Zhang, Zhenan Fan

Contour

Dans cet article, nous proposons un framework distribué d'encodage-préremplissage-décodage (EPD) pour résoudre le problème de dégradation des performances des modèles multimodaux à grande échelle (LMM). Les LMM traitent diverses entrées telles que des images, des fichiers audio et des vidéos, mais leurs étapes d'encodage multimodal entraînent une surcharge de calcul et de mémoire accrue, ce qui dégrade les objectifs de niveau de service (SLO) clés, tels que le temps de réponse. Le framework distribué EPD résout ces problèmes en séparant les étapes d'encodage, de préremplissage et de décodage en ressources dédiées. Grâce à la mise en cache des jetons multimédias, à la parallélisation de la charge d'encodage, à un module d'allocation optimale des ressources et à un mécanisme de changement de rôle, il améliore considérablement l'efficacité mémoire, la taille des lots, le nombre d'images par requête et la taille du cache KV, améliorant ainsi le taux d'atteinte des SLO et le temps de réponse.

Takeaways, Limitations

Takeaways:
Une nouvelle architecture qui répond efficacement au problème de dégradation des performances des LMM est présentée.
Améliorations des performances en termes d'efficacité de la mémoire, de taille des lots et de vitesse de traitement des requêtes (réduction de la mémoire jusqu'à 15x, augmentation de la taille des lots jusqu'à 22x, augmentation du débit d'image jusqu'à 10x, augmentation du cache KV de 2,2x, réduction du temps de réponse jusqu'à 71 %, amélioration du taux de réalisation du SLO de 90 à 100 %)
Présentation et vérification expérimentale de diverses techniques d'optimisation (mise en cache de jetons multimédia, parallélisation de la charge d'encodage, allocation optimale des ressources, commutation de rôle)
Améliorer l'accessibilité grâce à la divulgation du code source ouvert
Limitations:
Des coûts et des complexités supplémentaires peuvent survenir lors de la mise en œuvre et de l’exploitation du cadre distribué EPD.
Seuls les résultats expérimentaux pour des LMM spécifiques sont présentés, des recherches supplémentaires sont donc nécessaires sur la généralisabilité à d'autres LMM ou à des environnements divers.
Une vérification des performances et de la stabilité à long terme dans un environnement de service réel est nécessaire.
👍