Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AirCache : activation de la compression du cache KV de pertinence intermodale pour une inférence efficace de modèles vision-langage à grande échelle

Created by
  • Haebom

Auteur

Kai Huang, Hao Zou, Bochen Wang, Ye Xi, Zhen Xie, Hao Wang

Contour

Dans cet article, nous proposons AirCache, une nouvelle méthode de compression du cache KV permettant d'accélérer l'inférence des modèles de langage visuel à grande échelle (LVLM). Bien que les LVLM offrent d'excellentes capacités d'inférence et de généralisation, ils engendrent des coûts de calcul importants pour le traitement de nombreux jetons visuels et la génération de longs résultats contextuels, ce qui sollicite excessivement le cache KV. AirCache étudie systématiquement les corrélations entre les jetons visuels et textuels au sein du mécanisme d'attention des LVLM, détecte une redondance significative dans les jetons visuels mis en cache et les supprime stratégiquement, améliorant ainsi significativement la vitesse de génération de contexte tout en maintenant les performances du modèle. Nous introduisons une fenêtre d'observation d'élite pour évaluer les composants visuels importants et développons une stratégie d'allocation budgétaire adaptative couche par couche qui exploite la force et l'asymétrie des distributions d'importance des jetons, démontrant une meilleure efficacité que l'allocation uniforme conventionnelle. Grâce à des évaluations complètes sur plusieurs LVLM et benchmarks, nous démontrons qu'AirCache atteint des performances similaires à celles du cache complet tout en ne conservant que 10 % du cache KV visuel, réduisant ainsi la latence de décodage de 29 % à 66 % selon la taille des lots et la longueur des invites de saisie. Plus précisément, l'avantage en termes de performances par rapport aux méthodes existantes augmente à mesure que le taux de rétention du cache diminue.

Takeaways, Limitations

Takeaways:
Nous présentons une méthode efficace de compression du cache KV pour améliorer la vitesse d'inférence des LVLM.
Nous démontrons que l’analyse des corrélations entre les jetons visuels et textuels peut améliorer l’efficacité de la compression du cache.
Nous démontrons que l’utilisation du cache peut être optimisée grâce à une stratégie d’allocation budgétaire adaptative couche par couche.
Nous vérifions expérimentalement les améliorations de performances sur divers LVLM et benchmarks.
Limitations:
Les améliorations de performances d'AirCache peuvent se limiter à des LVLM et des benchmarks spécifiques. Leur généralisation à d'autres modèles ou ensembles de données nécessite des études plus approfondies.
La conception de la fenêtre d’observation de l’élite et de la stratégie d’allocation budgétaire hiérarchique adaptative est basée sur des résultats empiriques et peut nécessiter un soutien théorique supplémentaire.
Des recherches supplémentaires sont nécessaires pour étendre la plage au-delà de laquelle la compression du cache n’entraîne pas de dégradation des performances.
👍