Este artículo es un estudio para resolver la dificultad de la recopilación de datos en el aprendizaje de la política de control visomotor de los robots. Si bien el método de aprendizaje por imitación existente requiere una gran cantidad de datos de entrenamiento, este estudio sugiere un método para reducir la cantidad de recopilación de datos utilizando varios tipos de datos (robot, humano). La idea clave es, en primer lugar, aprender el modelo del mundo (WM) con varios tipos de datos utilizando flujo óptico y afinarlo con una pequeña cantidad de datos sobre el robot objetivo. En segundo lugar, mejorar el resultado de la política de replicación de acciones a través de la técnica Latent Policy Steering (LPS) para encontrar una mejor secuencia de acciones en el espacio latente del WM. Los resultados experimentales muestran que el rendimiento de la política aprendida con datos limitados (30 demostraciones: más del 50 %, 50 demostraciones: más del 20 %) mejora significativamente cuando se combina con el WM preentrenado utilizando el conjunto de datos de encarnación Open X o datos de juego humano.