Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SeqVLM : Raisonnement de séquences multi-vues guidé par proposition via VLM pour une mise à la terre visuelle 3D sans plan

Created by
  • Haebom

Auteur

Jiawen Lin, Shiran Bian, Yihang Zhu, Wenbin Tan, Yachao Zhang, Yuan Xie, Yanyun Qu

Contour

Contrairement aux méthodes d'apprentissage supervisé qui atteignent une grande précision dans des environnements limités, cet article se concentre sur l'ancrage visuel 3D (3DVG) sans prise de vue, avantageux pour les applications réelles. Pour pallier les limites d'inférence spatiale des méthodes sans prise de vue existantes et les problèmes d'omission de contexte ou de dégradation des détails, nous proposons SeqVLM, un nouveau framework 3DVG sans prise de vue qui exploite des images multi-vues de scènes réelles et des informations spatiales. SeqVLM génère des propositions d'instances 3D via un réseau de segmentation sémantique 3D et affine les propositions par filtrage sémantique, ne conservant que les candidats sémantiquement pertinents. Une stratégie de projection multi-vues basée sur les propositions projette les propositions candidates sur des séquences d'images de scènes réelles, préservant les relations spatiales et les détails contextuels lors du processus de conversion du nuage de points 3D en image. De plus, pour réduire la charge de calcul de VLM, nous implémentons un mécanisme d'ordonnancement dynamique qui traite de manière répétée les invites de requête de séquence. Ce mécanisme d'ordonnancement dynamique exploite les capacités d'inférence intermodale de VLM pour identifier les objets spécifiés par du texte. Les résultats expérimentaux obtenus avec les benchmarks ScanRefer et Nr3D démontrent des performances de pointe, avec des scores Acc@0.25 de 55,6 % et 53,2 %, respectivement, soit 4,0 % et 5,2 % de mieux que les méthodes zero-shot existantes. Le code est disponible à l' adresse https://github.com/JiawLin/SeqVLM .

Takeaways, Limitations

Takeaways:
Amélioration des performances 3DVG à prise de vue zéro et augmentation de la généralisabilité en exploitant les images multi-vues et les informations spatiales.
Réduction de la charge de calcul VLM grâce à des mécanismes de planification dynamique.
Atteindre des performances de pointe dans les benchmarks ScanRefer et Nr3D.
Applicabilité accrue dans le monde réel.
Limitations:
Les performances de la méthode proposée peuvent dépendre des performances du réseau de segmentation sémantique 3D et du VLM utilisés.
Augmentation potentielle des coûts de calcul en raison du traitement d'images multi-vues.
Il peut y avoir une possibilité de dégradation des performances pour certains types de scènes ou d'objets.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans divers environnements.
👍