Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimisation adaptative et robuste de l'inférence LLM en cas d'incertitude de prédiction

Created by
  • Haebom

Auteur

Zixi Chen, Yinyu Ye, Zijie Zhou

Contour

Cet article étudie la minimisation du temps d'attente total par l'optimisation de l'ordonnancement de l'inférence du modèle de langage à grande échelle (LLM). L'inférence LLM est un processus de service multitâche en ligne, et un LLM pré-entraîné consomme une énergie importante lors du traitement des requêtes d'entrée et de la génération séquentielle des jetons de sortie. Par conséquent, l'amélioration de l'efficacité de l'ordonnancement et la réduction de la consommation d'énergie sont cruciales lorsqu'un grand nombre de requêtes d'invite arrivent. Un défi majeur de l'ordonnancement de l'inférence LLM est que, si la longueur de l'invite est connue à l'arrivée, la longueur de la sortie, qui impacte significativement l'utilisation de la mémoire et le temps de traitement, est inconnue. Pour pallier cette incertitude, cet article propose un algorithme utilisant l'apprentissage automatique pour prédire la longueur de la sortie. Nous supposons que la prédiction pour chaque requête fournit une classification d'intervalle (une plage minimum-maximum). Un algorithme conservateur, $\mathcal{A} { \max}$, ordonne les requêtes en fonction d'une borne supérieure de la longueur de sortie prédite afin d'éviter un dépassement de mémoire. Cependant, cette méthode est trop conservatrice, ce qui entraîne une dégradation significative des performances due à une surestimation lorsque la précision de la prédiction diminue. Pour surmonter ces limitations, cet article propose un algorithme adaptatif, $\mathcal{A} {\min}$, qui traite la borne inférieure prédite comme la longueur de sortie initiale et améliore dynamiquement cette estimation lors de l'inférence. Nous prouvons que $\mathcal{A} {\min}$ atteint un rapport de compétitivité à l'échelle logarithmique, et des simulations numériques démontrent que $\mathcal{A} {\min}$ est efficace et robuste dans des scénarios réels. De plus, $\mathcal{A}_{\min}$ ne s'appuie que sur la borne inférieure de l'intervalle de prédiction, ce qui est avantageux car prédire avec précision la borne supérieure de la longueur de sortie est généralement plus difficile.

Takeaways, Limitations

Takeaways:
Nous présentons un nouvel algorithme ($\mathcal{A}_{\min}$) qui améliore l'efficacité de la planification de l'inférence LLM et réduit la consommation d'énergie.
Nous démontrons le potentiel des algorithmes adaptatifs pour gérer efficacement l’incertitude dans la prédiction de la longueur de sortie.
Garanties de performance théoriques pour les algorithmes qui atteignent des ratios de concurrence à l'échelle logarithmique.
Vérification expérimentale de l'efficacité et de la robustesse de $\mathcal{A}_{\min}$ dans des scénarios réels.
Compte tenu de la difficulté de prédire la limite supérieure de la longueur de sortie, nous présentons l’aspect pratique d’une conception qui repose uniquement sur la limite inférieure.
Limitations:
Les performances de l'algorithme proposé dépendent fortement de la précision de la prédiction de la longueur de sortie. Il est donc crucial d'améliorer les performances du modèle de prédiction.
Les résultats des simulations numériques peuvent différer des environnements système réels. Des vérifications supplémentaires sur des systèmes réels sont nécessaires.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à travers différentes architectures LLM et types de tâches.
👍