Cet article étudie la minimisation du temps d'attente total par l'optimisation de l'ordonnancement de l'inférence du modèle de langage à grande échelle (LLM). L'inférence LLM est un processus de service multitâche en ligne, et un LLM pré-entraîné consomme une énergie importante lors du traitement des requêtes d'entrée et de la génération séquentielle des jetons de sortie. Par conséquent, l'amélioration de l'efficacité de l'ordonnancement et la réduction de la consommation d'énergie sont cruciales lorsqu'un grand nombre de requêtes d'invite arrivent. Un défi majeur de l'ordonnancement de l'inférence LLM est que, si la longueur de l'invite est connue à l'arrivée, la longueur de la sortie, qui impacte significativement l'utilisation de la mémoire et le temps de traitement, est inconnue. Pour pallier cette incertitude, cet article propose un algorithme utilisant l'apprentissage automatique pour prédire la longueur de la sortie. Nous supposons que la prédiction pour chaque requête fournit une classification d'intervalle (une plage minimum-maximum). Un algorithme conservateur, $\mathcal{A} { \max}$, ordonne les requêtes en fonction d'une borne supérieure de la longueur de sortie prédite afin d'éviter un dépassement de mémoire. Cependant, cette méthode est trop conservatrice, ce qui entraîne une dégradation significative des performances due à une surestimation lorsque la précision de la prédiction diminue. Pour surmonter ces limitations, cet article propose un algorithme adaptatif, $\mathcal{A} {\min}$, qui traite la borne inférieure prédite comme la longueur de sortie initiale et améliore dynamiquement cette estimation lors de l'inférence. Nous prouvons que $\mathcal{A} {\min}$ atteint un rapport de compétitivité à l'échelle logarithmique, et des simulations numériques démontrent que $\mathcal{A} {\min}$ est efficace et robuste dans des scénarios réels. De plus, $\mathcal{A}_{\min}$ ne s'appuie que sur la borne inférieure de l'intervalle de prédiction, ce qui est avantageux car prédire avec précision la borne supérieure de la longueur de sortie est généralement plus difficile.