Cet article propose un cadre de co-optimisation algorithme-système, FreeKV, pour relever les défis de déploiement des modèles de langage à grande échelle (LLM) avec des fenêtres de contexte de plus en plus grandes. Les longs contextes des LLM posent des défis de déploiement en raison de la taille croissante du cache KV. Les méthodes existantes de compression, d'élimination et de recherche du cache KV souffrent d'une précision et d'une efficacité médiocres. FreeKV optimise le processus de sélection et de rappel des KV grâce à une recherche prédictive et des corrections précises. Il minimise le transfert de données et améliore l'efficacité grâce à une disposition hybride des KV entre la mémoire CPU et GPU et un rappel en continu à double tampon. Les résultats expérimentaux démontrent que FreeKV atteint une accélération jusqu'à 13 fois supérieure à la méthode de recherche KV la plus performante, tout en maintenant une précision quasi-nulle dans divers scénarios et modèles.