Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Parler à DINO : relier les piliers de la vision auto-supervisée au langage pour une segmentation du vocabulaire ouvert
Created by
Haebom
Auteur
Luca Barsellotti, Lorenzo Bianchi, Nicola Messina, Fabio Carrara, Marcella Cornia, Lorenzo Baraldi, Fabrizio Falchi, Rita Cucchiara
Contour
Talk2DINO est un article sur la segmentation de vocabulaire ouvert (OVS) qui présente une nouvelle approche hybride combinant la précision spatiale de DINOv2 et les capacités de compréhension du langage de CLIP. Pour répondre aux défis de la localisation spatiale dans les modèles vision-langage existants et au manque d'intégration du langage dans les modèles visuels basés sur l'apprentissage auto-supervisé, nous alignons les intégrations de texte de CLIP avec les caractéristiques de patch de DINOv2 à l'aide d'une fonction de mappage appris. Nous exploitons les cartes d'attention de DINOv2 pour aligner sélectivement les patchs visuels locaux avec les intégrations de texte, sans ajuster finement la structure sous-jacente. Nous démontrons que Talk2DINO produit des segmentations naturelles et à faible bruit et distingue efficacement les objets de premier plan de ceux d'arrière-plan. Il atteint des performances de pointe sur plusieurs benchmarks OVS non supervisés. Le code source et les modèles sont accessibles au public.
Takeaways, Limitations_
•
Takeaways:
◦
Combiner les avantages de DINOv2 et CLIP pour surmonter les limites des méthodes OVS existantes.
◦
Apprentissage efficace et performances améliorées grâce au tri sélectif à l'aide de cartes d'attention.
◦
Obtenez d’excellentes performances sans réglage fin de la colonne vertébrale.
◦
Générez des résultats de segmentation naturels et à faible bruit.
◦
Distinction efficace entre le premier plan et l’arrière-plan.
◦
Obtenez des performances de pointe et du code et des modèles open source.
•
Limitations:
◦
Cet article n'aborde pas explicitement les problématiques spécifiques à Limitations. Il s'agit de domaines qui pourraient être explorés par des expérimentations ou des analyses plus poussées (par exemple, la vulnérabilité à certains types d'images ou de textes, le coût de calcul, l'évolutivité, etc.).