Este artículo propone SPARK, un novedoso método que aprovecha la escasez no estructurada a nivel de canal para abordar el cuello de botella de la caché KV durante la inferencia de texto largo de modelos de lenguaje a gran escala (LLM). Si bien los métodos existentes de compresión de caché KV basados en el tiempo, como la eliminación o fusión de tokens, no consideran las variaciones de importancia a nivel de canal, SPARK aprovecha que la importancia del canal varía significativamente entre consultas y ubicaciones. Elimina los KV de los canales menos importantes y los restaura dinámicamente al calcular las puntuaciones de atención. SPARK es ortogonal a las técnicas existentes de compresión y cuantificación KV, lo que permite su uso conjunto para una mayor aceleración. Además, al reducir la redundancia a nivel de canal, SPARK permite el procesamiento de secuencias más largas dentro de la misma huella de memoria. Los resultados experimentales demuestran que SPARK reduce el almacenamiento de la caché KV en más de un 30 % en comparación con los métodos existentes basados en la eliminación, a la vez que mantiene o mejora la precisión del modelo. Incluso con una tasa de poda agresiva del 80 %, la degradación del rendimiento se mantiene por debajo del 5 %.