Este artículo aborda las limitaciones de los modelos de lenguaje de visión (MLV) para comprender las interacciones espaciotemporales. Los MLV existentes tienen dificultades para comprender el movimiento, la rotación y los cambios de perspectiva de los objetos, capacidades esenciales para comprender situaciones dinámicas del mundo real. Por lo tanto, presentamos VLM4D, un novedoso modelo de referencia para evaluar las capacidades de razonamiento espaciotemporal de los MLV. VLM4D consta de una variedad de vídeos reales y sintéticos, y pares de preguntas y respuestas cuidadosamente elaborados, que enfatizan el movimiento traslacional y rotacional, la percepción del punto de vista y la continuidad del movimiento. Una evaluación exhaustiva de los MLV de vanguardia revela importantes deficiencias de rendimiento en comparación con los modelos de referencia humanos, lo que pone de relieve deficiencias fundamentales en los modelos existentes. Nuestro análisis revela que los MLV tienen dificultades para integrar múltiples señales visuales y mantener la coherencia temporal. También exploramos líneas de investigación prometedoras, como la reconstrucción de campos de características 4D y el perfeccionamiento del aprendizaje supervisado espaciotemporal dirigido por objetivos, demostrando su eficacia para mejorar la comprensión espaciotemporal. Este estudio tiene como objetivo fomentar una mayor exploración de las mejoras espaciales y temporales de los VLM, hacia una inteligencia visual más capaz y confiable para entornos dinámicos.