Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GeoSAM2 : exploiter la puissance de SAM2 pour la segmentation de pièces 3D

Created by
  • Haebom

Auteur

Ken Deng, Yunhan Yang, Jingxiang Sun, Xihui Liu, Yebin Liu, Ding Liang, Yan-Pei Cao

Contour

GeoSAM2 est un framework contrôlé par invites pour la segmentation de pièces d'objets 3D sans texture. Il restitue des cartes de normales et de points à partir d'un point de vue prédéfini et utilise des invites 2D simples (clics ou cases) pour guider la sélection des pièces. Une infrastructure SAM2 partagée, enrichie par LoRA et la fusion de géométrie résiduelle, traite les invites, permettant une inférence spécifique à la vue tout en préservant les informations préalables pré-entraînées. Les masques prédits sont rétroprojetés sur l'objet et agrégés entre les vues. Cette méthode permet un contrôle précis des pièces sans invites textuelles, optimisation spécifique à la forme ni étiquettes 3D complètes. Contrairement aux méthodes de clustering global ou d'échelle, les invites sont explicites, spatialement ancrées et interprétables. Elle atteint des performances de pointe, indépendantes des classes, sur PartObjaverse-Tiny et PartNetE, surpassant à la fois les pipelines lents basés sur l'optimisation et les approches de feed-forward rapides mais rudimentaires. Cela met en évidence un nouveau paradigme pour la segmentation 3D qui exploite les entrées 2D interactives pour augmenter la contrôlabilité et la précision dans la compréhension des pièces au niveau de l'objet, en s'alignant sur le paradigme de SAM2.

Takeaways, Limitations

Takeaways:
Fournit un cadre précis et contrôlable pour la segmentation d'objets 3D sans invites textuelles.
Utilisez des invites 2D pour guider la sélection des pièces de manière intuitive et interprétable.
Elle est plus rapide que les méthodes basées sur l’optimisation et plus précise que les méthodes d’anticipation brutes.
Nous obtenons des performances de pointe sur les ensembles de données PartObjaverse-Tiny et PartNetE.
Nous présentons un nouveau paradigme pour la segmentation 3D.
Limitations:
Actuellement, les performances n'ont été évaluées que pour les objets sans texture. Les performances sur les objets avec textures nécessitent des recherches plus approfondies.
Les types d'invites sont limités aux clics et aux cases. Des extensions peuvent être nécessaires pour prendre en charge une plus grande variété de types d'invites.
ÉTant donné qu'il s'appuie sur la dorsale SAM2, les limitations de la dorsale peuvent avoir un impact sur les performances de GeoSAM2.
👍