Dans cet article, nous proposons AirCache, une nouvelle méthode de compression du cache KV permettant d'accélérer l'inférence des modèles de langage visuel à grande échelle (LVLM). Bien que les LVLM offrent d'excellentes capacités d'inférence et de généralisation, ils engendrent des coûts de calcul importants pour le traitement de nombreux jetons visuels et la génération de longs résultats contextuels, ce qui sollicite excessivement le cache KV. AirCache étudie systématiquement les corrélations entre les jetons visuels et textuels au sein du mécanisme d'attention des LVLM, détecte une redondance significative dans les jetons visuels mis en cache et les supprime stratégiquement, améliorant ainsi significativement la vitesse de génération de contexte tout en maintenant les performances du modèle. Nous introduisons une fenêtre d'observation d'élite pour évaluer les composants visuels importants et développons une stratégie d'allocation budgétaire adaptative couche par couche qui exploite la force et l'asymétrie des distributions d'importance des jetons, démontrant une meilleure efficacité que l'allocation uniforme conventionnelle. Grâce à des évaluations complètes sur plusieurs LVLM et benchmarks, nous démontrons qu'AirCache atteint des performances similaires à celles du cache complet tout en ne conservant que 10 % du cache KV visuel, réduisant ainsi la latence de décodage de 29 % à 66 % selon la taille des lots et la longueur des invites de saisie. Plus précisément, l'avantage en termes de performances par rapport aux méthodes existantes augmente à mesure que le taux de rétention du cache diminue.