Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Invite de positionnement visuel pour la mise à la terre visuelle basée sur MLLM

Created by
  • Haebom

Auteur

Wei Tang, Yanpeng Sun, Qinying Gu, Zechao Li

Contour

Dans cet article, nous proposons un modèle VPP-LLaVA qui utilise l'invite de position visuelle (VPP) pour résoudre le problème de l'alignement précis des coordonnées dans la tâche d'ancrage visuel des modèles linguistiques multimodaux à grande échelle (MLLM). Ces derniers peinent à aligner précisément les coordonnées avec les informations spatiales en raison de l'absence de référencement spatial explicite et du processus d'extraction de caractéristiques qui privilégie le contexte global aux détails spatiaux précis. VPP-LLaVA résout ce problème en intégrant deux mécanismes complémentaires : le VPP global et le VPP local. Le VPP global fournit des indices spatiaux structurés en superposant des tenseurs de type axe apprenables aux images d'entrée, tandis que le VPP local intègre des requêtes de localisation pour une localisation précise. De plus, nous introduisons un nouvel ensemble de données VPP-SFT composé de 0,6 million d'échantillons d'ancrage visuel de haute qualité pour un apprentissage efficace. VPP-LLaVA obtient des résultats de pointe sur les benchmarks d'ancrage visuel standard et démontre d'excellentes performances de généralisation sans échantillonnage sur des ensembles de données inédits.

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour améliorer les performances de la configuration visuelle de MLLM (en utilisant VPP)
Création d'un petit ensemble de données VPP-SFT de haute qualité pour une formation efficace
Obtenez des performances de pointe sur des benchmarks standard et démontrez des performances de généralisation zéro-shot robustes
Améliorer la compréhension visuelle du MLLM grâce à un meilleur alignement spatial
Limitations:
La taille de l'ensemble de données VPP-SFT est relativement petite par rapport aux autres ensembles de données utilisés dans MLLM (0,6 M contre ~ 21 M).
Il est possible que les performances du modèle proposé soient biaisées en faveur d'un ensemble de données spécifique (il faut les tester sur des ensembles de données plus diversifiés).
Manque de description détaillée de la conception et du processus d'apprentissage du VPP (explications supplémentaires nécessaires)
👍