본 논문은 지리적으로 광대한 지역(수천 제곱킬로미터)의 3D 모델 생성이라는 어려움에 대해 다룹니다. 이를 해결하기 위해, 5만 개의 600m x 600m 크기의 미국 본토 전역 항공 사진으로 구성된 대규모 3D 항공 데이터셋 Aerial-Earth3D를 제시합니다. 이 데이터셋은 다중 뷰 이미지, 깊이 맵, 노멀, 의미론적 분할 및 카메라 위치 정보를 포함하며, 품질 관리를 통해 지형의 다양성을 보장합니다. 이를 기반으로, 논문은 희소-분리잠재 확산(sparse-decoupled latent diffusion)을 이용한 대규모 3D 지구 생성을 위한 EarthCrafter 프레임워크를 제안합니다. EarthCrafter는 구조와 질감 생성을 분리하여 고해상도 기하학적 복셀과 2D 가우시안 스플랫(2DGS)을 압축된 잠재 공간으로 변환하는 이중 희소 3D-VAE를 사용하여 계산 비용을 줄입니다. 또한, 의미, 이미지 또는 둘 다를 조합한 입력으로 훈련된 조건 인식 흐름 일치 모델을 사용하여 잠재 기하 및 질감 특징을 독립적으로 유연하게 모델링합니다. 실험 결과, EarthCrafter는 대규모 생성에서 뛰어난 성능을 보이며, 의미론적 유도 도시 레이아웃 생성부터 무조건적 지형 합성까지 다양한 응용 프로그램을 지원합니다.