Cet article propose SPARK, une nouvelle méthode qui exploite la parcimonie non structurée au niveau du canal pour résoudre le goulot d'étranglement du cache KV lors de l'inférence de texte long des modèles linguistiques à grande échelle (LLM). Alors que les méthodes de compression de cache KV temporelles existantes, telles que la suppression ou la fusion de jetons, ne tiennent pas compte des variations d'importance au niveau du canal, SPARK exploite le fait que l'importance du canal varie considérablement selon les requêtes et les emplacements. Il supprime les KV des canaux moins importants et les restaure dynamiquement lors du calcul des scores d'attention. SPARK est orthogonal aux techniques existantes de compression et de quantification KV, ce qui permet de les utiliser conjointement pour une accélération supplémentaire. De plus, en réduisant la redondance au niveau du canal, SPARK permet le traitement de séquences plus longues avec la même empreinte mémoire. Les résultats expérimentaux démontrent que SPARK réduit l'espace de stockage du cache KV de plus de 30 % par rapport aux méthodes existantes basées sur la suppression, tout en maintenant ou en améliorant la précision du modèle. Même avec un taux d'élagage agressif de 80 %, la dégradation des performances reste inférieure à 5 %.