En este artículo, presentamos la primera caracterización sistemática de los patrones de carga de trabajo de KV$ de proveedores de servicios LLM del mundo real. Dado que el almacenamiento en caché de resultados intermedios (KV$) desempeña un papel fundamental en la mejora del rendimiento en el aprovisionamiento de servicios de modelos de lenguaje (LLM) a gran escala, las decisiones de diseño del sistema, como las políticas de desalojo de caché, dependen en gran medida de la carga de trabajo. Realizamos varias observaciones que no se han abordado en estudios previos centrados en cargas de trabajo sintéticas: la reutilización de KV$ en las solicitudes es asimétrica, la reutilización en solicitudes de un solo turno es tan importante como la reutilización en solicitudes de múltiples turnos, los tiempos y las probabilidades de reutilización varían en todas las solicitudes, pero los patrones son predecibles para categorías de solicitud específicas, y el tamaño total de la caché es adecuado para una tasa de aciertos de caché ideal. Con base en estas caracterizaciones, proponemos una política de desalojo de caché que tiene en cuenta la carga de trabajo y que mejora el rendimiento del servicio en datos de seguimiento del mundo real, especialmente cuando la capacidad de la caché es limitada.