Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprendre à partir de vidéos pour le monde 3D : améliorer les MLLM avec les priors de géométrie de vision 3D

Created by
  • Haebom

Auteur

Duo Zheng, Shijia Huang, Yanyang Li, Liwei Wang

Contour

Dans cet article, nous proposons une nouvelle méthode, le modèle de langage vidéo-géométrique 3D (VG LLM), pour améliorer les performances des modèles de langage multimodaux (MLLM) utilisant uniquement des données vidéo, sans données 3D supplémentaires, pour la compréhension de scènes 3D. Le VG LLM utilise un encodeur de géométrie visuelle 3D pour extraire des informations spatiales 3D des séquences vidéo, qui sont ensuite intégrées à des jetons visuels et transmises au MLLM. Les résultats expérimentaux démontrent que la méthode proposée améliore significativement les performances sur diverses tâches de compréhension de scènes 3D et de raisonnement spatial. En particulier, elle obtient des résultats compétitifs par rapport aux méthodes de pointe existantes sans données 3D explicites, et présente un modèle 4B qui surpasse Gemini-1.5-Pro ​​lors de l'évaluation VSI-Bench.

Takeaways, Limitations

Takeaways:
Nous présentons une méthode efficace pour la compréhension de scènes 3D et l'inférence spatiale en utilisant uniquement des données vidéo.
Obtenez des performances de pointe sans saisie de données 3D supplémentaire.
Surmonter les difficultés de la recherche existante sur la compréhension des scènes 3D basée sur MLLM.
Les performances compétitives du modèle 4B démontrent un équilibre entre efficacité et performance.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une évaluation de la robustesse pour différents types et environnements vidéo est nécessaire.
Les performances du modèle 4B sont limitées à l’évaluation VSI-Bench, d’autres résultats d’évaluation de référence sont donc nécessaires.
Manque possible de description détaillée du processus de conception et de formation de l'encodeur géométrique visuel 3D.
👍