Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimisation de la diffusion LLM avec des longueurs de pré-remplissage et de décodage variables

Created by
  • Haebom

Auteur

Meixuan Wang, Yinyu Ye, Zijie Zhou

Contour

Cet article étudie le problème du traitement des requêtes LLM avec des longueurs de pré-remplissage et de décodage hétérogènes. Dans le traitement LLM, la longueur de pré-remplissage correspond à la longueur de l'invite d'entrée et détermine l'utilisation initiale de la mémoire du cache KV. La longueur de décodage représente le nombre de jetons de sortie générés séquentiellement, et chaque jeton supplémentaire augmente l'utilisation de la mémoire du cache KV d'une unité. Étant donné un ensemble de n requêtes, notre objectif est de les planifier et de les traiter afin de minimiser le temps d'exécution total. Cet article montre que ce problème est NP-difficile en raison de l'interaction entre le placement, les contraintes de placement, les relations de précédence et l'augmentation linéaire de l'utilisation de la mémoire. Nous analysons les stratégies d'ordonnancement FCFS et SF couramment utilisées et démontrons que leurs taux de contention augmentent de manière sous-linéaire avec les contraintes de mémoire (un inconvénient majeur dans les environnements réels à forte demande mémoire). Pour résoudre ce problème, nous proposons un nouvel algorithme basé sur une nouvelle métrique de sélection qui forme efficacement des lots au fil du temps, et nous démontrons que cet algorithme atteint un taux de contention constant. Enfin, nous développons et évaluons plusieurs variantes algorithmiques inspirées de cette approche, notamment des variantes de programmation dynamique, des méthodes de recherche locale et des planificateurs basés sur LP, et montrons par des simulations complètes qu'elles surpassent la ligne de base standard tout en maintenant l'efficacité de calcul.

Takeaways, Limitations

Takeaways: Nous présentons un nouvel algorithme capable d'améliorer considérablement l'efficacité du traitement des requêtes LLM et démontrons son efficacité par une analyse théorique et des résultats expérimentaux. Une nouvelle métrique de sélection, qui forme efficacement des lots au fil du temps, offre une solution pratique applicable aux systèmes de traitement LLM réels. Diverses variantes de l'algorithme améliorent son applicabilité à divers environnements.
Limitations: Les performances de l'algorithme proposé sont basées sur des résultats de simulation. Leur performance dans un environnement de système de service LLM réel nécessite une vérification expérimentale plus approfondie. Une analyse plus approfondie de la complexité de l'algorithme pourrait être nécessaire. Des performances optimales peuvent ne pas être garanties pour certains types de distributions de requêtes.
👍