Cet article propose un système appelé Krul pour résoudre le problème de la restauration efficace de l'état dans les conversations multi-tours de modèles de langage à grande échelle (LLM). Pour surmonter les limites des méthodes de compression du cache KV existantes, qui appliquent la même méthode de compression à toutes les conversations, Krul sélectionne dynamiquement une stratégie de compression en tenant compte de la similarité des schémas d'attention entre les conversations. Parmi les innovations clés, citons la sélection prédictive de la stratégie de compression, l'estimation de la similarité d'attention hétérogène par jeton et un ordonnanceur de restauration sans bulles. Les résultats expérimentaux montrent que Krul réduit respectivement le TTFT de 1,5x et 2,68x, et le stockage du cache KV de 1,33x et 2,35x, par rapport aux méthodes existantes les plus performantes, tout en maintenant la même qualité de génération.