Cet article est une étude visant à résoudre la difficulté de collecte de données lors de l'apprentissage de la politique de contrôle visuo-moteur des robots. Alors que la méthode d'apprentissage par imitation existante nécessite un volume important de données d'apprentissage, cette étude propose une méthode permettant de réduire ce volume en utilisant différents types de données (robot, humain). L'idée principale est, tout d'abord, d'apprendre le modèle du monde (WM) avec différents types de données en utilisant le flux optique, puis de l'affiner avec une petite quantité de données sur le robot cible. Ensuite, d'améliorer le rendement de la politique de réplication d'actions grâce à la technique de pilotage de politique latente (LPS) afin de trouver une meilleure séquence d'actions dans l'espace latent du WM. Les résultats expérimentaux montrent que les performances de la politique apprise avec des données limitées (30 démonstrations : plus de 50 %, 50 démonstrations : plus de 20 %) sont significativement améliorées lorsqu'elle est combinée avec le WM pré-entraîné à l'aide de l'ensemble de données d'incarnation Open X- ou de données de jeu humain.