Bài báo này cung cấp một đánh giá tổng hợp về các mô hình sinh đa phương thức cho nhiệm vụ hiểu và mô phỏng thế giới thực trong nghiên cứu Trí tuệ nhân tạo tổng quát (AGI). Trong khi các phương pháp tiếp cận truyền thống, chẳng hạn như mô hình thế giới, tập trung vào việc nắm bắt các nguyên tắc cơ bản chi phối thế giới vật lý, chúng có xu hướng coi các phương thức khác nhau—hình ảnh 2D, video, biểu diễn 3D và 4D—là các miền độc lập và bỏ qua sự phụ thuộc lẫn nhau của chúng. Bài báo này trình bày một đánh giá tổng hợp về các mô hình sinh đa phương thức, khám phá sự tiến triển của các chiều dữ liệu trong mô phỏng thế giới thực, bắt đầu với việc tạo 2D (hình ảnh) và tiến tới video (hình ảnh + động lực học), tạo 3D (hình ảnh + hình học), và cuối cùng là tạo 4D tích hợp tất cả các chiều. Bằng cách cung cấp một đánh giá toàn diện về các tập dữ liệu, số liệu đánh giá và định hướng tương lai, chúng tôi cung cấp hướng dẫn cho nghiên cứu trong tương lai và cung cấp những hiểu biết sâu sắc cho các nhà nghiên cứu mới.