Este artículo propone un marco de trabajo de simulación a real, denominado X-Sim. En lugar de imitar el movimiento humano, X-Sim extrae el movimiento de objetos de imágenes RGBD para definir recompensas centradas en objetos, que se utilizan para entrenar un agente de aprendizaje por refuerzo (RL). La política aprendida se destila en una política de difusión condicional a la imagen mediante despliegues sintéticos renderizados con diversos puntos de vista e iluminación. Para transferirla al entorno real, alineamos observaciones reales y simuladas mediante adaptación de dominio en línea. Demostramos una mejora promedio del 30 % en el rendimiento en cinco tareas de manipulación sin requerir datos de teleoperación robótica, logramos el mismo rendimiento con un tiempo de adquisición de datos diez veces menor que con los métodos existentes y demostramos una buena generalización a nuevos puntos de vista de cámara y tiempos de prueba.