Cet article aborde les limites des modèles de langage visuel (MLV) dans la compréhension des interactions spatio-temporelles. Les MVV existants peinent à comprendre le mouvement des objets, la rotation et les changements de point de vue, pourtant essentiels à la compréhension de situations dynamiques réelles. C'est pourquoi nous présentons VLM4D, un nouveau benchmark pour évaluer les capacités de raisonnement spatio-temporel des MVV. VLM4D se compose d'une variété de vidéos réelles et synthétiques et de paires de questions-réponses soigneusement construites, mettant l'accent sur les mouvements de translation et de rotation, la perception du point de vue et la continuité du mouvement. Une évaluation complète des MVV de pointe révèle des écarts de performance significatifs par rapport aux benchmarks humains, soulignant les déficiences fondamentales des modèles existants. Notre analyse révèle que les MVV peinent à intégrer plusieurs indices visuels et à maintenir la cohérence temporelle. Nous explorons également des pistes prometteuses, telles que la reconstruction de champs de caractéristiques 4D et l'optimisation de l'apprentissage supervisé spatio-temporel orienté vers les objectifs, démontrant leur efficacité pour améliorer la compréhension spatio-temporelle. Cette étude vise à encourager une exploration plus approfondie des améliorations spatiales et temporelles des VLM, vers une intelligence visuelle plus performante et plus fiable pour les environnements dynamiques.