[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Invite de positionnement visuel pour la mise à la terre visuelle basée sur MLLM

Created by
  • Haebom

Auteur

Wei Tang, Yanpeng Sun, Qinying Gu, Zechao Li

Contour

Dans cet article, nous proposons un modèle VPP-LLaVA utilisant l'invite de positionnement visuel (VPP) pour résoudre la difficulté d'alignement précis des coordonnées dans les tâches d'ancrage visuel des modèles linguistiques multimodaux à grande échelle (MLLM). La difficulté des MLLM à aligner précisément les coordonnées avec les informations spatiales s'explique par l'absence de référencement spatial explicite et par le processus d'extraction de caractéristiques qui privilégie le contexte global aux détails spatiaux précis. VPP-LLaVA résout ce problème en intégrant deux mécanismes : le VPP global et le VPP local. Le VPP global fournit des indices spatiaux structurés en superposant des tenseurs de type axe apprenables aux images d'entrée, tandis que le VPP local prend en charge l'identification fine de la position grâce à des requêtes sensibles à la position. De plus, nous introduisons un nouvel ensemble de données VPP-SFT composé de 0,6 million d'échantillons d'ancrage visuel de haute qualité pour un apprentissage efficace. VPP-LLaVA atteint des performances de pointe sur les benchmarks d'ancrage visuel standard et démontre d'excellentes performances de généralisation zéro-shot sur de nouveaux ensembles de données.

Takeaways, Limitations

Takeaways:
Présentation de VPP comme une méthode efficace pour améliorer les performances des tâches visuelles dans MLLM
Présentation de VPP-SFT, un petit ensemble de données de haute qualité pour une formation efficace
Obtenir des performances visuelles améliorées et de solides performances de généralisation zéro-shot par rapport aux MLLM existants
Facilité de reproduction de la recherche et de recherches ultérieures grâce à un code ouvert et à des ensembles de données
Limitations:
La taille de l'ensemble de données VPP-SFT peut encore être relativement petite par rapport à d'autres grands ensembles de données. L'utilisation d'un ensemble de données plus volumineux pourrait potentiellement améliorer les performances.
Les performances de généralisation de la méthode proposée nécessitent une évaluation plus approfondie sur diverses tâches et ensembles de données basés sur la visualisation.
Manque d'analyse détaillée sur la conception et le réglage des paramètres du VPP. Des recherches supplémentaires sur la conception optimale du VPP pourraient être nécessaires.
👍