Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PriorCLIP : Modèle vision-langage guidé par prior visuel pour la récupération d'images et de textes par télédétection

Created by
  • Haebom

Auteur

Jiancheng Pan, Muyuan Ma, Qing Ma, Cong Bai, Shengyong Chen

Contour

Pour relever les défis de la récupération d'images-textes par télédétection, cet article propose PriorCLIP, un modèle de langage visuel exploitant les informations visuelles a priori. PriorCLIP exploite ces informations pour un apprentissage de représentation impartial et un alignement adaptatif image-langage. En domaine fermé, PriorCLIP utilise des architectures d'encodeurs d'attention progressive (PAE) spatio-temporels pour filtrer les caractéristiques saillantes, atténuer les biais sémantiques et améliorer les représentations textuelles. En domaine ouvert, PriorCLIP conçoit une stratégie d'apprentissage de représentations dictionnairiques en deux étapes, comprenant un apprentissage à grande échelle du dictionnaire sur des paires image-texte grossières et un réglage fin à l'aide d'indicateurs visuels, permettant une récupération robuste des concepts de longue traîne et des variations lexicales. De plus, nous proposons une perte d'attribution contrastive symétrique basée sur les clusters afin de contraindre les relations inter-classes et d'atténuer la confusion sémantique dans un espace d'intégration partagé. Des expériences approfondies sur les benchmarks RSICD et RSITMD démontrent que PriorCLIP permet d'obtenir des gains de performance significatifs par rapport aux méthodes existantes : 4,9 % et 4,0 % dans la récupération en domaine fermé, et 7,3 % et 9,4 % dans la récupération en domaine ouvert.

Takeaways, Limitations_

Takeaways:
Améliorer les performances de récupération d'images de télédétection en texte en proposant un nouveau modèle de langage visuel, PriorCLIP, qui exploite les informations visuelles antérieures.
Atteint des performances supérieures aux méthodes existantes dans les environnements de domaine fermé et ouvert.
Des techniques efficaces telles que la structure PAE, la stratégie d'apprentissage de représentation de dictionnaire en deux étapes et la fonction de perte basée sur les clusters sont présentées.
Limitations:
Manque d’analyse du coût de calcul et de la complexité du modèle proposé.
Une évaluation des performances de généralisation sur divers ensembles de données de télédétection est nécessaire.
Des recherches supplémentaires sont nécessaires sur son utilité et son évolutivité dans les applications du monde réel.
👍