Bài báo này đề cập đến những hạn chế của các mô hình ngôn ngữ thị giác (VLM) trong việc hiểu các tương tác không gian-thời gian. Các VLM hiện tại gặp khó khăn trong việc hiểu chuyển động của vật thể, sự quay và thay đổi góc nhìn, vốn là những khả năng thiết yếu để hiểu các tình huống động trong thế giới thực. Do đó, chúng tôi trình bày VLM4D, một chuẩn mực mới để đánh giá khả năng suy luận không gian-thời gian của VLM. VLM4D bao gồm nhiều video thực và tổng hợp, cùng các cặp câu hỏi-trả lời được xây dựng cẩn thận, nhấn mạnh vào chuyển động tịnh tiến và quay, nhận thức về góc nhìn và tính liên tục của chuyển động. Một đánh giá toàn diện về các VLM hiện đại cho thấy những khoảng cách hiệu suất đáng kể so với chuẩn mực của con người, làm nổi bật những thiếu sót cơ bản trong các mô hình hiện có. Phân tích của chúng tôi cho thấy VLM gặp khó khăn trong việc tích hợp nhiều tín hiệu thị giác và duy trì tính nhất quán về mặt thời gian. Chúng tôi cũng khám phá các hướng đi đầy hứa hẹn, chẳng hạn như tái tạo trường đặc trưng 4D và tinh chỉnh học có giám sát không gian-thời gian theo mục tiêu, chứng minh hiệu quả của chúng trong việc nâng cao hiểu biết về không gian-thời gian. Nghiên cứu này nhằm mục đích khuyến khích khám phá sâu hơn về những cải tiến về không gian và thời gian đối với VLM, hướng tới trí thông minh thị giác có khả năng và đáng tin cậy hơn cho các môi trường năng động.