Cet article propose un cadre de simulation réel-simulation réel-simulation réel, appelé X-Sim. Au lieu d'imiter le mouvement humain, X-Sim extrait le mouvement des objets à partir d'images RGBD afin de définir des récompenses centrées sur l'objet, qui sont ensuite utilisées pour entraîner un agent d'apprentissage par renforcement (RL). La politique apprise est transformée en une politique de diffusion conditionnelle à l'image à l'aide de déploiements synthétiques rendus avec différents points de vue et éclairages. Pour le transfert vers l'environnement réel, nous alignons les observations réelles et simulées grâce à l'adaptation de domaine en ligne. Nous démontrons une amélioration moyenne de 30 % des performances sur cinq tâches de manipulation sans nécessiter de données de téléopération robotique, obtenons les mêmes performances avec un temps d'acquisition de données 10 fois inférieur aux méthodes existantes et démontrons une bonne généralisation à de nouveaux points de vue de caméra et à de nouveaux temps de test.