Este artículo estudia el problema de minimizar el tiempo total de espera mediante la optimización de la programación de inferencias de modelos de lenguaje a gran escala (LLM). La inferencia LLM es un proceso de servicio multitarea en línea, y un LLM preentrenado consume una cantidad significativa de energía al procesar solicitudes de entrada y generar tokens de salida secuencialmente. Por lo tanto, mejorar la eficiencia de la programación y reducir el consumo de energía es crucial cuando llega un gran número de solicitudes de solicitud. Un desafío clave en la programación de inferencias LLM es que, si bien la longitud de la solicitud se conoce al momento de la llegada, se desconoce la longitud de la salida, que impacta significativamente el uso de memoria y el tiempo de procesamiento. Para abordar esta incertidumbre, este artículo propone un algoritmo que utiliza aprendizaje automático para predecir la longitud de la salida. Suponemos que la predicción para cada solicitud proporciona una clasificación de intervalo (un rango mínimo-máximo). Un algoritmo conservador, $\mathcal{A} {\max}$, programa las solicitudes basándose en un límite superior en la longitud de salida predicha para evitar el desbordamiento de memoria. Sin embargo, este método es excesivamente conservador, lo que conlleva una degradación significativa del rendimiento debido a la sobreestimación cuando disminuye la precisión de la predicción. Para superar estas limitaciones, este artículo propone un algoritmo adaptativo, $\mathcal{A} {\min}$, que trata el límite inferior predicho como la longitud de salida inicial y mejora dinámicamente esta estimación durante la inferencia. Demostramos que $\mathcal{A} {\min}$ alcanza una razón competitiva de escala logarítmica, y las simulaciones numéricas demuestran que $\mathcal{A} {\min}$ es eficiente y robusto en escenarios del mundo real. Además, $\mathcal{A}_{\min}$ se basa únicamente en el límite inferior del intervalo de predicción, lo cual es ventajoso porque predecir con precisión el límite superior de la longitud de salida suele ser más difícil.