Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Caché KVCache en la práctica: caracterización y optimización de la caché KVCache en un gran proveedor de nube

Created by
  • Haebom

Autor

Jiahao Wang, Jinbo Han, Xingda Wei, Sijie Shen, Dingyan Zhang, Chenguang Fang, Rong Chen, Wenyuan Yu, Haibo Chen

Describir

En este artículo, presentamos la primera caracterización sistemática de los patrones de carga de trabajo de KV$ de proveedores de servicios LLM del mundo real. Dado que el almacenamiento en caché de resultados intermedios (KV$) desempeña un papel fundamental en la mejora del rendimiento en el aprovisionamiento de servicios de modelos de lenguaje (LLM) a gran escala, las decisiones de diseño del sistema, como las políticas de desalojo de caché, dependen en gran medida de la carga de trabajo. Realizamos varias observaciones que no se han abordado en estudios previos centrados en cargas de trabajo sintéticas: la reutilización de KV$ en las solicitudes es asimétrica, la reutilización en solicitudes de un solo turno es tan importante como la reutilización en solicitudes de múltiples turnos, los tiempos y las probabilidades de reutilización varían en todas las solicitudes, pero los patrones son predecibles para categorías de solicitud específicas, y el tamaño total de la caché es adecuado para una tasa de aciertos de caché ideal. Con base en estas caracterizaciones, proponemos una política de desalojo de caché que tiene en cuenta la carga de trabajo y que mejora el rendimiento del servicio en datos de seguimiento del mundo real, especialmente cuando la capacidad de la caché es limitada.

Takeaways, Limitations

Takeaways:
Analizamos sistemáticamente las características de la carga de trabajo de almacenamiento en caché de KV$ en un entorno de servicio LLM real por primera vez, superando las limitaciones de los estudios existentes basados en datos sintéticos.
Demostramos la importancia de la reutilización de KV$ tanto en solicitudes de un solo turno como de múltiples turnos, y descubrimos patrones de reutilización predecibles en todas las categorías de solicitudes.
Proponemos una nueva política de desalojo de caché que tiene en cuenta las características de la carga de trabajo, lo que sugiere el potencial de mejora del rendimiento en entornos reales.
Limitations:
Debido a que los resultados del estudio se basan en datos de un proveedor de servicios LLM específico, la generalización a otros proveedores de servicios o arquitecturas LLM puede ser limitada.
El rendimiento de la política de desalojo de caché propuesta debe verificarse más a fondo mediante pruebas exhaustivas en entornos reales.
Se necesitan estudios más exhaustivos sobre las diversas arquitecturas y cargas de trabajo de LLM.
👍