Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ExpVG : Étude de l'espace de conception de l'ancrage visuel dans un modèle de langage multimodal à grande échelle

Created by
  • Haebom

Auteur

Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu

Contour

Cet article présente une étude exhaustive des caractéristiques multimodales fines des modèles de langage multimodaux à grande échelle (MLLM), abordant spécifiquement le problème de la vérité terrain visuelle (VG). Bien que les études précédentes aient utilisé divers choix de conception, la validation systématique pour étayer ces conceptions faisait défaut. Cette étude analyse différents choix de conception affectant les performances VG des MLLM utilisant LLaVA-1.5. Grâce à l'exploration des paradigmes VG dans les MLLM et à une étude d'ablation de la conception de la vérité terrain, nous proposons une méthode d'optimisation des performances VG. Ainsi, nous obtenons des gains de performance de +5,6 %, +6,9 % et +7,0 % sur RefCOCO/+/g par rapport à LLaVA-1.5.

Takeaways, Limitations

Takeaways:
Nous fournissons une analyse systématique de divers choix de conception pour améliorer les performances de la vérité visuelle de base (VG) de MLLM.
Fournit des informations sur les paradigmes VG efficaces et la conception de données fondées.
Les résultats basés sur LLaVA-1.5 sont probablement également applicables à d’autres architectures.
Nous avons obtenu des améliorations notables des performances sur l’ensemble de données RefCOCO/+/g.
Limitations:
Notre étude a été menée sur la base de LLaVA-1.5, et des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de nos résultats à des modèles plus récents.
La gamme des choix de conception utilisés dans l’analyse peut être limitée.
Une vérification supplémentaire de la généralisabilité à d’autres architectures MLLM est nécessaire.
👍