Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PropVG : ancrage visuel de bout en bout basé sur des propositions avec discrimination multi-granularité

Created by
  • Haebom

Auteur

Ming Dai, Wenxuan Cheng, Jiedong Zhuang, Jiang-jiang Liu, Hongshen Zhao, Zhenhua Feng, Wankou Yang

Contour

Cet article présente le modèle PropVG, un modèle proposé qui surmonte les limites des méthodes existantes qui négligent les avantages des cibles latentes. Compte tenu des tendances récentes de la recherche sur l'ancrage visuel, qui privilégie un paradigme efficace de référencement direct de bout en bout au lieu de l'approche inefficace en deux étapes basée sur des propositions, cet article propose PropVG pour surmonter les limites des méthodes existantes qui négligent les avantages des cibles latentes. PropVG est un cadre de référencement de bout en bout qui intègre de manière transparente la génération de propositions d'objets de premier plan et la compréhension des objets de référence sans nécessiter de détecteurs supplémentaires. Il améliore la discrimination multigranulaire des cibles grâce à l'introduction d'un module de score de référencement basé sur le contraste (CRS) qui utilise l'apprentissage contrastif au niveau des phrases et des mots, et d'un module de discrimination multigranulaire des cibles (MTD) qui améliore la reconnaissance des cibles absentes en intégrant des informations au niveau de l'objet et de la sémantique. Nous présentons des résultats expérimentaux approfondis démontrant l'efficacité de PropVG sur les benchmarks gRefCOCO, Ref-ZOM, R-RefCOCO et RefCOCO. Le code et le modèle sont disponibles publiquement sur GitHub.

Takeaways, Limitations

Takeaways:
Nous abordons les inefficacités de l’approche traditionnelle en deux étapes grâce à un cadre basé sur des propositions de bout en bout.
Nous avons intégré la génération de propositions d'objets de premier plan et la compréhension d'objets de référence sans détecteurs supplémentaires.
Le module CRS améliore la capacité à comprendre et à distinguer les objets de référence grâce à un apprentissage contrastif au niveau des phrases et des mots.
Le taux de reconnaissance des objets absents a été amélioré en renforçant la fonction de classification multi-particules grâce au module MTD.
Il a démontré d’excellentes performances dans divers benchmarks.
Limitations:
Le Limitations présenté dans cet article n'est pas explicitement mentionné. Des expériences ou analyses complémentaires pourraient suggérer de futures pistes de recherche (par exemple, vulnérabilité à certains types de représentations de référence, performances de généralisation dans divers environnements visuels, etc.).
👍