Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CCL-LGS : Apprentissage par code contrastif pour l'éclaboussure gaussienne de langage 3D

Created by
  • Haebom

Auteur

Lei Tian, Xiaomin Li, Liqian Ma, Hao Yin, Zirui Zheng, Hefei Huang, Taiqing Li, Huchuan Lu, Xu Jia

Contour

Cet article propose CCL-LGS, un nouveau cadre pour la compréhension sémantique 3D. Pour répondre aux défis rencontrés par les méthodes 2D existantes basées sur les a priori, qui souffrent d'incohérences sémantiques entre vues dues à l'occlusion, au flou de l'image et aux variations dépendantes de la vue, nous proposons une méthode qui améliore la supervision sémantique cohérente entre les vues en intégrant des indices sémantiques multi-vues. Plus précisément, nous alignons les masques 2D générés par SAM à l'aide d'un tracker à zéro coup, extrayons des codages sémantiques robustes grâce à CLIP et extrayons des caractéristiques sémantiques discriminantes en améliorant la compacité intra-classe et la différenciation inter-classes grâce au module d'apprentissage par livre de codes contrastifs (CCL). Contrairement aux méthodes existantes, CCL-LGS résout explicitement les conflits sémantiques tout en préservant la discriminabilité des catégories, plutôt que d'appliquer directement CLIP aux masques incomplets. Les résultats expérimentaux démontrent que CCL-LGS surpasse les méthodes de pointe existantes.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre qui peut améliorer la précision de la compréhension sémantique 3D en intégrant des indices sémantiques multi-vues.
Résolvez efficacement le problème des incohérences sémantiques entre vues en utilisant le tracker zéro-shot et les modules CLIP et CCL.
Performances supérieures vérifiées expérimentalement par rapport aux méthodes existantes.
Limitations:
Manque d’analyse du coût de calcul et de la complexité de la méthode proposée.
D’autres expériences sont nécessaires pour évaluer les performances de généralisation dans différents environnements et ensembles de données.
Il existe des pièces qui dépendent des performances d'autres modèles tels que SAM et CLIP.
👍