Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VLM4D : Vers une prise en compte spatiotemporelle dans les modèles de langage visuel

Created by
  • Haebom

Auteur

Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi

Contour

Cet article aborde les limites des modèles de langage visuel (MLV) dans la compréhension des interactions spatio-temporelles. Les MVV existants peinent à comprendre le mouvement des objets, la rotation et les changements de point de vue, pourtant essentiels à la compréhension de situations dynamiques réelles. C'est pourquoi nous présentons VLM4D, un nouveau benchmark pour évaluer les capacités de raisonnement spatio-temporel des MVV. VLM4D se compose d'une variété de vidéos réelles et synthétiques et de paires de questions-réponses soigneusement construites, mettant l'accent sur les mouvements de translation et de rotation, la perception du point de vue et la continuité du mouvement. Une évaluation complète des MVV de pointe révèle des écarts de performance significatifs par rapport aux benchmarks humains, soulignant les déficiences fondamentales des modèles existants. Notre analyse révèle que les MVV peinent à intégrer plusieurs indices visuels et à maintenir la cohérence temporelle. Nous explorons également des pistes prometteuses, telles que la reconstruction de champs de caractéristiques 4D et l'optimisation de l'apprentissage supervisé spatio-temporel orienté vers les objectifs, démontrant leur efficacité pour améliorer la compréhension spatio-temporelle. Cette étude vise à encourager une exploration plus approfondie des améliorations spatiales et temporelles des VLM, vers une intelligence visuelle plus performante et plus fiable pour les environnements dynamiques.

Takeaways, Limitations

Takeaways:
Un nouveau benchmark, VLM4D, est présenté pour évaluer les capacités de raisonnement spatio-temporel des VLM.
Présenter et identifier clairement les limites des capacités de compréhension spatio-temporelle des VLM existants.
Orientations prometteuses pour améliorer la compréhension spatio-temporelle, notamment la reconstruction de champs de caractéristiques 4D et le réglage fin de l'apprentissage de cartes spatio-temporelles orientées vers des objectifs.
Proposer des orientations de recherche pour développer une intelligence visuelle plus avancée dans des environnements dynamiques.
Limitations:
Le benchmark VLM4D en est encore à ses débuts et doit être étendu pour inclure des scénarios plus diversifiés et plus complexes.
L’efficacité des améliorations proposées peut être limitée à des ensembles de données ou à des modèles spécifiques.
Il reste encore des défis technologiques importants à relever pour parvenir à des capacités de raisonnement spatio-temporelles de niveau humain.
👍