Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CoViPAL : Élagage de jetons visuels contextualisés par couche pour les grands modèles vision-langage

Created by
  • Haebom

Auteur

Zicong Tang, Ziyang Ma, Suqing Wang, Zuchao Li, Lefei Zhang, Hai Zhao, Yun Li, Qianren Wang

Contour

Cet article propose CoViPAL, une nouvelle méthode d'élagage de jetons visuels visant à améliorer l'efficacité d'inférence des modèles vision-langage à grande échelle (LVLM). Les LVLM traitent des entrées multimodales composées de jetons visuels et textuels extraits d'images ou de vidéos. L'abondance d'informations visuelles génère un grand nombre de jetons visuels, ce qui entraîne des coûts de calcul et une surcharge mémoire élevés. Si les méthodes d'élagage existantes sont efficaces pour supprimer les jetons visuels redondants, elles présentent des difficultés en raison du manque d'informations contextuelles dans les couches superficielles. CoViPAL supprime efficacement les jetons visuels inutiles, même dans les couches superficielles, grâce au module d'élagage Plug-and-Play (PPM), qui prédit et supprime les jetons redondants avant leur traitement par le LVLM. Le PPM est léger et fonctionne indépendamment du modèle, garantissant une intégration transparente avec différents modèles. Les résultats expérimentaux obtenus sur différents benchmarks démontrent que CoViPAL surpasse les méthodes d'élagage sans apprentissage existantes pour un même budget de jetons et les méthodes basées sur l'apprentissage existantes utilisant des niveaux similaires d'apprentissage supervisé.

Takeaways, Limitations

Takeaways:
Nous présentons une méthode efficace et évolutive pour améliorer l’efficacité d’inférence de LVLM.
Facile à adapter à différents modèles grâce à des modules d'élagage plug-and-play légers et indépendants du modèle (PPM).
Atteint des performances supérieures par rapport aux méthodes d'élagage sans apprentissage existantes et aux méthodes basées sur l'apprentissage.
Permet une taille efficace des jetons visuels, même dans les couches peu profondes.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du module PPM présenté dans cet article.
D'autres expériences sont nécessaires sur différents types de LVLM et des modèles de différentes tailles.
Bien que le coût de calcul du module PPM soit considéré comme très faible, une analyse plus approfondie est nécessaire pour déterminer la surcharge qui peut survenir dans les applications pratiques.
👍