Este artículo aborda el desafío de generar modelos 3D de áreas geográficamente extensas (miles de kilómetros cuadrados). Para abordar esto, presentamos Aerial-Earth3D, un conjunto de datos aéreos 3D a gran escala que consiste en 50,000 fotografías aéreas de 600 m x 600 m de todo el territorio continental de Estados Unidos. El conjunto de datos contiene imágenes multivista, mapas de profundidad, normales, segmentación semántica e información de posición de la cámara, y está controlado de calidad para garantizar la diversidad del terreno. Con base en esto, proponemos el marco EarthCrafter para la generación de la Tierra 3D a gran escala utilizando difusión latente desacoplada dispersa. EarthCrafter reduce los costos computacionales al separar la generación de estructura y textura utilizando 3D-VAE dual disperso, que transforma vóxeles geométricos de alta resolución y salpicaduras gaussianas 2D (2DGS) en un espacio latente comprimido. Además, modelamos características geométricas y de textura latentes de forma independiente y flexible mediante modelos de coincidencia de flujo con conocimiento de condiciones, entrenados con entradas semánticas, de imagen o una combinación de ambas. Los resultados experimentales demuestran que EarthCrafter destaca en la generación a gran escala, compatible con una amplia gama de aplicaciones, desde la generación de diseños urbanos guiados semánticamente hasta la síntesis de terreno incondicional.