Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Fourier-VLM : compression des jetons de vision dans le domaine fréquentiel pour les grands modèles vision-langage

Created by
  • Haebom

Auteur

Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin

Contour

Pour remédier au coût de calcul élevé et à la latence d'inférence des modèles vision-langage (VLM), cet article propose la méthode Fourier-VLM, une nouvelle méthode de compression des représentations visuelles dans le domaine fréquentiel. Les VLM existants remplacent les jetons d'espace réservé des images par des caractéristiques visuelles extraites de l'encodeur d'images, mais le grand nombre de jetons visuels augmente la longueur du contexte et les coûts de calcul. La méthode Fourier-VLM exploite la concentration des caractéristiques visuelles dans les composantes basse fréquence et applique un filtre passe-bas utilisant une transformée en cosinus discrète (DCT) bidimensionnelle pour compresser les représentations visuelles. La DCT est calculée efficacement via la transformée de Fourier rapide (FFT), minimisant les coûts de calcul sans nécessiter de paramètres supplémentaires. Des expériences sur divers benchmarks basés sur des images démontrent que les architectures LLaVA et Qwen-VL atteignent des performances compétitives et des performances de généralisation. Par rapport à LLaVA-v1.5, notre approche proposée réduit les FLOP d'inférence jusqu'à 83,8 % et améliore la vitesse de génération de 31,2 %.

Takeaways, Limitations

Takeaways:
Nous démontrons que la compression dans le domaine fréquentiel peut réduire efficacement le coût de calcul et la latence d’inférence des VLM.
Obtenez des améliorations de performances efficaces sans paramètres supplémentaires.
Il présente d'excellentes performances de généralisation sur diverses architectures telles que LLaVA et Qwen-VL.
Améliore considérablement l'efficacité et la praticité des VLM pour les applications pratiques.
Limitations:
Les améliorations de performance de la méthode proposée peuvent être biaisées en faveur de certains ensembles de données ou architectures. Des expériences plus approfondies sont nécessaires pour vérifier les performances de la généralisation.
Nous supposons que l’énergie est concentrée dans les composants basse fréquence, mais des recherches supplémentaires sont nécessaires pour déterminer si cette hypothèse peut toujours être appliquée à toutes les données d’image.
En raison des limites de la compression DCT, il existe un risque de perte d'informations dans les composantes haute fréquence. Des recherches supplémentaires pourraient être nécessaires pour minimiser la dégradation des performances qui en résulte.
👍