Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TinyAlign : Optimiser les modèles vision-langage légers en atténuant les goulots d'étranglement de l'alignement modal

Created by
  • Haebom

Auteur

Yuanze Hu, Zhaoxin Fan, Xinyu Wang, Gen Li, Ye Qiu, Zhichao Yang, Wenjun Wu, Kejian Wu, Yifan Sun, Xiaotie Deng, Jin Dong

Contour

Cet article se concentre sur l'amélioration des performances des modèles vision-langage légers (VLM). Les VLM légers existants utilisent une méthode qui entraîne uniquement de petits modules connectés tout en corrigeant l'encodeur de vision et le modèle de langage. Cette méthode repose fortement sur la capacité de représentation du modèle de langage et entraîne une dégradation des performances. Cette étude analyse ces limitations du point de vue de l'information mutuelle (MIT) et montre que la capacité limitée du modèle de langage limite l'information mutuelle effective (EMI) entre les entrées et les sorties multimodales, dégradant ainsi la qualité de l'alignement. Pour résoudre ce problème, cet article propose le framework TinyAlign, inspiré de la génération augmentée par récupération. TinyAlign enrichit les entrées multimodales et améliore l'alignement en récupérant les contextes pertinents dans les banques de mémoire. Les résultats expérimentaux montrent que TinyAlign réduit significativement les pertes d'apprentissage, accélère la convergence et améliore les performances des tâches. Il présente notamment une excellente efficacité des données en atteignant les mêmes performances avec seulement 40 % des données du modèle existant.

Takeaways, Limitations_

Takeaways:
Présentation de TinyAlign, un nouveau framework pour améliorer les performances des VLM légers
Présentation d'une stratégie d'alignement multimodal efficace utilisant la technique de récupération-génération augmentée
Analyse de la cause de la dégradation des performances des VLM légers à l'aide d'informations mutuelles et de suggestions de solutions
Les performances de TinyAlign se révèlent supérieures aux modèles existants en termes d'efficacité des données (performances équivalentes obtenues avec 40 % des données)
Limitations:
Des recherches supplémentaires sont nécessaires sur la taille et la configuration de la banque de mémoire de TinyAlign.
Il est nécessaire d'évaluer les performances de généralisation pour divers VLM légers et diverses tâches en aval
Une analyse plus approfondie du coût de calcul et de la complexité de la méthodologie proposée est nécessaire.
👍