Cet article aborde le problème de la génération de données de scènes à grande échelle pour l'apprentissage robotique. Les méthodes de reconstruction existantes basées sur les réseaux neuronaux sont utiles pour reconstruire des scènes extérieures à grande échelle à partir d'environnements réels, mais elles sont limitées aux environnements statiques et manquent de diversité de scènes et de trajectoires. À l'inverse, les modèles récents de diffusion d'images ou de vidéos offrent une certaine contrôlabilité, mais manquent de fondements géométriques et de causalité. Pour surmonter ces limitations, cette étude présente une méthode permettant de générer directement des scènes de conduite 3D à grande échelle avec des informations géométriques précises. La méthode proposée combine la génération de géométrie proxy et de représentation de l'environnement avec la distillation de scores à partir d'images 2D a priori apprises, offrant une grande contrôlabilité et permettant la génération de scènes de conduite 3D complexes, réalistes et géométriquement cohérentes, conditionnées par la disposition de la carte.