Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

M$^2$IV : Vers un apprentissage multimodal en contexte efficace et précis via l'ingénierie des représentations

Created by
  • Haebom

Auteur

Yanshu Li, Yi Cao, Hongyang He, Qisen Cheng, Xiang Fu, Xi Xiao, Tianyang Wang, Ruixiang Tang

Contour

Cet article propose M$^2$IV, une nouvelle technique d'ingénierie des représentations visant à améliorer l'efficacité de l'apprentissage contextuel multimodal (ICL) pour les modèles vision-langage à grande échelle (LVLM). Pour répondre à la forte intensité de jetons des ICL conventionnels et au problème complexe de l'inférence intermodale à quelques coups, M$^2$IV injecte directement des vecteurs multimodaux en contexte apprenables dans le flux résiduel des LVLM, au lieu de démonstrations explicites au niveau du jeton. En analysant les rôles de l'attention multi-têtes (MHA) et des perceptrons multicouches (MLP), nous concevons une stratégie d'apprentissage permettant une distillation sémantique fine et un apprentissage robuste des représentations intermodales. M$^2$IV améliore les performances sur diverses tâches et LVLM, réduisant considérablement la surcharge de jetons et améliorant l'évolutivité vers des scénarios multi-coups. De plus, nous améliorons la convivialité en introduisant VLibrary, qui stocke, récupère et utilise les M$^2$IV entraînés. Les résultats expérimentaux montrent que M$^2$IV surpasse l'ICL existant et les techniques d'ingénierie de représentation existantes, obtenant une amélioration moyenne de la précision de 3,74 % et une amélioration de l'efficacité.

Takeaways, Limitations

Takeaways:
Une nouvelle technique d’ingénierie de représentation, M$^2$IV, qui améliore considérablement l’efficacité de l’apprentissage contextuel multimodal est présentée.
ÉVolutivité améliorée vers de nombreux scénarios de prise de vue en réduisant la surcharge des jetons.
Améliorations des performances pour diverses tâches et LVLM (amélioration moyenne de la précision de 3,74 %)
VLibrary, un système de stockage et de récupération M$^2$IV formé pour une utilisation facile
Limitations:
Les améliorations de performances de M$^2$IV sont basées sur des résultats expérimentaux sur des ensembles de données et des LVLM spécifiques, et des recherches supplémentaires sont nécessaires sur les performances de généralisation.
Il faut tenir compte de l’évolutivité et de la maintenabilité de VLibrary.
Des recherches supplémentaires sont nécessaires pour optimiser les stratégies de formation M$^2$IV.
👍