Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimización del servicio LLM con longitudes de prellenado y decodificación variables

Created by
  • Haebom

Autor

Meixuan Wang, Yinyu Ye, Zijie Zhou

Describir

Este artículo estudia el problema del procesamiento de solicitudes LLM con longitudes de prerrelleno y decodificación heterogéneas. En el servicio LLM, la longitud de prerrelleno corresponde a la longitud del mensaje de entrada y determina el uso inicial de memoria de la caché KV. La longitud de decodificación representa el número de tokens de salida generados secuencialmente, y cada token adicional incrementa el uso de memoria de la caché KV en una unidad. Dado un conjunto de n solicitudes, nuestro objetivo es programarlas y procesarlas para minimizar el tiempo total de finalización. Este artículo demuestra que este problema es NP-hard debido a la interacción entre la ubicación, las restricciones de ubicación, las relaciones de precedencia y el aumento lineal del uso de memoria. Analizamos las estrategias de programación FCFS y SF comúnmente utilizadas y demostramos que sus tasas de contención aumentan sublinealmente con las restricciones de memoria (una desventaja significativa en entornos reales con altas demandas de memoria). Para abordar este problema, proponemos un nuevo algoritmo basado en una nueva métrica de selección que forma lotes eficientemente a lo largo del tiempo y demostramos que este algoritmo logra una tasa de contención constante. Por último, desarrollamos y evaluamos varias variantes algorítmicas inspiradas en este enfoque, incluidas variantes de programación dinámica, métodos de búsqueda local y programadores basados ​​en LP, y demostramos a través de simulaciones exhaustivas que superan la línea base estándar manteniendo la eficiencia computacional.

Takeaways, Limitations

Takeaways: Presentamos un nuevo algoritmo que puede mejorar drásticamente la eficiencia del procesamiento de solicitudes LLM y demostramos su eficacia mediante análisis teóricos y resultados experimentales. Una nueva métrica de selección que genera lotes eficientemente a lo largo del tiempo proporciona una solución práctica aplicable a sistemas de servicio LLM del mundo real. Diversas variaciones del algoritmo mejoran su aplicabilidad a diversos entornos.
Limitations: El rendimiento del algoritmo propuesto se basa en resultados de simulación. Su rendimiento en un entorno real de un sistema de servicio LLM requiere mayor verificación experimental. Podría ser necesario un análisis más profundo de la complejidad del algoritmo. Es posible que no se garantice un rendimiento óptimo para ciertos tipos de distribuciones de solicitudes.
👍