Bài báo này đề cập đến thách thức trong việc tạo ra các mô hình 3D của các khu vực địa lý rộng lớn (hàng nghìn km2). Để giải quyết vấn đề này, chúng tôi xin giới thiệu Aerial-Earth3D, một bộ dữ liệu ảnh hàng không 3D quy mô lớn bao gồm 50.000 ảnh hàng không kích thước 600m x 600m của toàn bộ lục địa Hoa Kỳ. Bộ dữ liệu này chứa các ảnh đa góc nhìn, bản đồ độ sâu, pháp tuyến, phân đoạn ngữ nghĩa và thông tin vị trí camera, đồng thời được kiểm soát chất lượng để đảm bảo tính đa dạng của địa hình. Dựa trên điều này, chúng tôi đề xuất khung EarthCrafter để tạo ra Trái Đất 3D quy mô lớn bằng cách sử dụng khuếch tán tiềm ẩn phân tách thưa thớt. EarthCrafter giảm chi phí tính toán bằng cách tách biệt cấu trúc và tạo kết cấu bằng cách sử dụng 3D-VAE thưa thớt kép, chuyển đổi các voxel hình học có độ phân giải cao và các mảng Gaussian 2D (2DGS) thành một không gian tiềm ẩn nén. Ngoài ra, chúng tôi mô hình hóa các đặc điểm hình học và kết cấu tiềm ẩn một cách độc lập và linh hoạt bằng cách sử dụng các mô hình khớp dòng nhận biết điều kiện được đào tạo trên các đầu vào là ngữ nghĩa, hình ảnh hoặc kết hợp cả hai. Kết quả thử nghiệm cho thấy EarthCrafter vượt trội trong việc tạo ra dữ liệu quy mô lớn, hỗ trợ nhiều ứng dụng khác nhau, từ việc tạo bố cục thành phố theo hướng dẫn ngữ nghĩa đến tổng hợp địa hình vô điều kiện.