En este artículo, proponemos AirCache, un novedoso método de compresión de caché KV para acelerar la inferencia de modelos visuales de lenguaje a gran escala (LVLM). Los LVLM poseen excelentes capacidades de inferencia y generalización, pero requieren un alto coste computacional para procesar numerosos tokens visuales y generar largas salidas de contexto, lo que genera una demanda excesiva de la caché KV. AirCache investiga sistemáticamente las correlaciones entre tokens visuales y textuales, detecta una redundancia significativa en los tokens visuales almacenados en caché y los elimina estratégicamente para acelerar significativamente la generación de contexto, manteniendo al mismo tiempo el rendimiento del modelo. Sus componentes clave incluyen ventanas de observación de élite para evaluar la importancia de los componentes visuales, un modelado robusto de relevancia intermodal con una consistencia multivista mejorada y una estrategia adaptativa de asignación de presupuesto capa por capa que aprovecha la fuerza y la asimetría de las distribuciones de importancia de los tokens. Evaluaciones exhaustivas de varios LVLM y benchmarks muestran que AirCache alcanza un rendimiento similar al de la caché completa, manteniendo solo el 10 % de la caché KV visual, lo que reduce la latencia de decodificación entre un 29 % y un 66 % para diversos tamaños de lote y longitudes de mensajes. En particular, al disminuir la tasa de retención de caché, el rendimiento mejora aún más en comparación con los métodos existentes.