Cet article présente le système Robots Imitating Generated Videos (RIGVid). RIGVid permet aux robots d'effectuer des tâches de manipulation complexes telles que verser, essuyer et mélanger en imitant des vidéos générées par l'IA, sans démonstration physique ni formation spécifique. À partir de commandes vocales et d'images de scène initiales, un modèle de diffusion vidéo génère des vidéos de démonstration potentielles, et un modèle de langage visuel (MLV) filtre automatiquement les résultats non conformes aux commandes. Un système de suivi de pose 6D extrait les trajectoires des objets des vidéos, qui sont ensuite réaffectées au robot, quelle que soit l'implémentation. Des évaluations approfondies en conditions réelles montrent que les vidéos de génération filtrées sont aussi efficaces que les démonstrations réelles et que les performances augmentent avec la qualité de la génération. Nous montrons également que le recours aux vidéos de génération surpasse des alternatives plus concises, comme la prédiction de points clés à l'aide du MLV, et qu'un suivi de pose 6D robuste surpasse d'autres méthodes d'extraction de trajectoires, comme le suivi de caractéristiques denses. Ces résultats suggèrent que les vidéos générées par des modèles commerciaux de pointe peuvent constituer une source efficace de supervision pour la manipulation des robots.