Este artículo aborda el problema de la generación de datos de escenas a gran escala para el aprendizaje robótico. Los métodos de reconstrucción existentes basados en redes neuronales son útiles para reconstruir escenas exteriores a gran escala basadas en entornos reales, pero se limitan a entornos estáticos y carecen de diversidad de escenas y trayectorias. Por el contrario, los modelos recientes de difusión de imágenes o vídeos ofrecen controlabilidad, pero carecen de fundamentos geométricos y causalidad. Para superar estas limitaciones, este estudio presenta un método para generar directamente escenas de conducción 3D a gran escala con información geométrica precisa. El método propuesto combina la geometría proxy y la generación de representaciones del entorno con la destilación de puntuaciones a partir de imágenes 2D previas aprendidas, lo que proporciona una alta controlabilidad y permite la generación de escenas de conducción 3D complejas, realistas y geométricamente consistentes, condicionadas al diseño del mapa.