Bài báo này là một nghiên cứu nhằm giải quyết khó khăn trong việc thu thập dữ liệu khi học chính sách điều khiển thị giác-vận động của rô-bốt. Trong khi phương pháp học bắt chước hiện tại đòi hỏi một lượng lớn dữ liệu đào tạo, nghiên cứu này đề xuất một phương pháp để giảm lượng dữ liệu thu thập bằng cách sử dụng nhiều loại dữ liệu khác nhau (rô-bốt, con người). Ý tưởng chính là trước tiên học mô hình thế giới (WM) với nhiều loại dữ liệu khác nhau bằng cách sử dụng luồng quang học và tinh chỉnh nó với một lượng nhỏ dữ liệu về rô-bốt mục tiêu. Thứ hai, cải thiện đầu ra của chính sách sao chép hành động thông qua kỹ thuật Điều khiển chính sách tiềm ẩn (LPS) để tìm ra chuỗi hành động tốt hơn trong không gian tiềm ẩn của WM. Kết quả thực nghiệm cho thấy hiệu suất của chính sách được học với dữ liệu hạn chế (30 lần trình diễn: hơn 50%, 50 lần trình diễn: hơn 20%) được cải thiện đáng kể khi kết hợp với WM được đào tạo trước bằng bộ dữ liệu Open X-embodiment hoặc dữ liệu chơi của con người.