Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimización de inferencia LLM adaptativamente robusta bajo incertidumbre de predicción

작성자
  • Haebom

Autor

Zixi Chen, Yinyu Ye, Zijie Zhou

Describir

Este artículo estudia el problema de minimizar el tiempo total de espera mediante la optimización de la programación de inferencias de modelos de lenguaje a gran escala (LLM). La inferencia LLM es un proceso de servicio multitarea en línea, y un LLM preentrenado consume una cantidad significativa de energía al procesar solicitudes de entrada y generar tokens de salida secuencialmente. Por lo tanto, mejorar la eficiencia de la programación y reducir el consumo de energía es crucial cuando llega un gran número de solicitudes de solicitud. Un desafío clave en la programación de inferencias LLM es que, si bien la longitud de la solicitud se conoce al momento de la llegada, se desconoce la longitud de la salida, que impacta significativamente el uso de memoria y el tiempo de procesamiento. Para abordar esta incertidumbre, este artículo propone un algoritmo que utiliza aprendizaje automático para predecir la longitud de la salida. Suponemos que la predicción para cada solicitud proporciona una clasificación de intervalo (un rango mínimo-máximo). Un algoritmo conservador, $\mathcal{A} {\max}$, programa las solicitudes basándose en un límite superior en la longitud de salida predicha para evitar el desbordamiento de memoria. Sin embargo, este método es excesivamente conservador, lo que conlleva una degradación significativa del rendimiento debido a la sobreestimación cuando disminuye la precisión de la predicción. Para superar estas limitaciones, este artículo propone un algoritmo adaptativo, $\mathcal{A} {\min}$, que trata el límite inferior predicho como la longitud de salida inicial y mejora dinámicamente esta estimación durante la inferencia. Demostramos que $\mathcal{A} {\min}$ alcanza una razón competitiva de escala logarítmica, y las simulaciones numéricas demuestran que $\mathcal{A} {\min}$ es eficiente y robusto en escenarios del mundo real. Además, $\mathcal{A}_{\min}$ se basa únicamente en el límite inferior del intervalo de predicción, lo cual es ventajoso porque predecir con precisión el límite superior de la longitud de salida suele ser más difícil.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo algoritmo ($\mathcal{A}_{\min}$) que mejora la eficiencia de la programación de inferencia LLM y reduce el consumo de energía.
Demostramos el potencial de los algoritmos adaptativos para manejar eficazmente la incertidumbre en la predicción de la longitud de salida.
Garantías de rendimiento teórico para algoritmos que logran ratios de competencia de escala logarítmica.
Verificación experimental de la eficiencia y robustez de $\mathcal{A}_{\min}$ en escenarios del mundo real.
Considerando la dificultad de predecir el límite superior de la longitud de salida, presentamos la viabilidad de un diseño que se basa únicamente en el límite inferior.
Limitations:
El rendimiento del algoritmo propuesto depende en gran medida de la precisión de la predicción de la longitud de salida. Mejorar el rendimiento del modelo de predicción es crucial.
Los resultados de la simulación numérica pueden diferir de los del entorno real del sistema. Se requiere verificación adicional en sistemas reales.
Se necesita más investigación para determinar la generalización entre diferentes arquitecturas LLM y tipos de tareas.
👍