[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Argus : Exploiter les images multivues pour une meilleure compréhension des scènes 3D avec de grands modèles linguistiques

Created by
  • Haebom

Auteur

Yifan Xu, Chao Zhang, Hanqi Jiang, Xiaoyan Wang, Ruifei Ma, Yiwei Li, Zihao Wu, Zeju Li, Xiangde Liu

Contour

Dans cet article, nous proposons Argus, un nouveau framework multimodal 3D qui exploite les images multi-vues pour améliorer les performances des modèles de langage à grande échelle (LLM) pour la compréhension de scènes 3D. Afin de résoudre les problèmes de perte d'information et de distorsion des méthodes existantes basées sur les nuages de points 3D, nous utilisons la cohérence visuelle et les informations détaillées des images multi-vues 2D pour compenser les déficiences des nuages de points 3D. Argus est un modèle multimodal 3D à grande échelle (3D-LMM) qui prend en entrée des instructions textuelles, des images multi-vues 2D et des nuages de points 3D, et génère des représentations de scènes 3D complètes et détaillées en intégrant les images multi-vues et les informations de position de la caméra aux caractéristiques 3D. Les résultats expérimentaux montrent qu'Argus surpasse les 3D-LMM existants sur diverses sous-tâches.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle méthode pour résoudre efficacement le problème de perte d’informations des nuages de points 3D en utilisant des images multi-vues.
Proposer une architecture 3D-LMM pour améliorer la capacité de compréhension de scène 3D du LLM.
Démontre des performances supérieures aux méthodes existantes dans diverses sous-tâches.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode présentée dans cet article et son applicabilité à divers types de scènes.
Une analyse et une amélioration des coûts de calcul et du temps de traitement sont nécessaires.
Une analyse supplémentaire est nécessaire sur les dépendances et les contraintes sur des types spécifiques d’images ou de nuages de points.
👍