Este artículo propone un sistema llamado Krul para resolver el problema de la restauración eficiente del estado en conversaciones multironda de modelos de lenguaje a gran escala (LLM). Para superar la limitación de los métodos de compresión de caché KV existentes, que aplican el mismo método de compresión a todas las conversaciones, Krul selecciona dinámicamente una estrategia de compresión considerando la similitud de patrones de atención entre conversaciones. Las innovaciones clave incluyen la selección predictiva de la estrategia de compresión, la estimación heterogénea de la similitud de atención por tokens y un programador de restauración sin burbujas. Los resultados experimentales muestran que Krul reduce el TTFT en 1,5 y 2,68 veces, y el almacenamiento en caché KV en 1,33 y 2,35 veces, respectivamente, en comparación con los métodos existentes de mejor rendimiento, manteniendo la misma calidad de generación.