Bài báo này tập trung vào thao tác dự đoán, tận dụng các trạng thái dự đoán để cải thiện hiệu suất chính sách của robot. Để giải quyết khó khăn của các mô hình thế giới hiện có trong việc tạo chính xác các trạng thái thị giác trong tương lai của tương tác robot-đối tượng, đặc biệt là ở cấp độ pixel, chúng tôi đề xuất LaDi-WM, một mô hình thế giới dự đoán không gian tiềm ẩn của các trạng thái trong tương lai bằng cách sử dụng mô hình khuếch tán. LaDi-WM kết hợp cả các đặc điểm hình học (dựa trên DINO) và ngữ nghĩa (dựa trên CLIP) bằng cách tận dụng các mô hình dựa trên thị giác (VFM) được đào tạo trước và các không gian tiềm ẩn được căn chỉnh. Chúng tôi chứng minh rằng việc dự đoán các thay đổi không gian tiềm ẩn tạo điều kiện thuận lợi cho việc học và khái quát hóa tốt hơn so với dự đoán hình ảnh trực tiếp ở cấp độ pixel. Dựa trên LaDi-WM, chúng tôi thiết kế một chính sách khuếch tán cải thiện hành vi đầu ra theo từng bước bằng cách kết hợp các trạng thái dự đoán, mang lại kết quả nhất quán và chính xác hơn. Các thí nghiệm mở rộng trên các điểm chuẩn tổng hợp và thực tế chứng minh rằng LaDi-WM cải thiện hiệu suất chính sách lên 27,9% trên điểm chuẩn LIBERO-LONG và 20% trong các tình huống thực tế, đạt được hiệu suất khái quát hóa ấn tượng ngay cả trong các thí nghiệm thực tế.