본 논문은 단일 상향식 이미지로부터 사실적이고 일관성 있는 3D 도시 장면을 합성하는 훈련 없이 동작하는 프레임워크인 3DTown을 제시한다. 기존 3D 생성 모델들이 객체 단위에서는 좋은 성과를 보이지만 전체 장면 생성에서는 기하학적 불일치, 레이아웃 환각, 낮은 품질의 메쉬 등의 문제점을 갖는다는 점을 지적하며, 이를 해결하기 위해 영역 기반 생성과 공간 인식 3D inpainting이라는 두 가지 원칙을 제시한다. 입력 이미지를 겹치는 영역으로 분할하고, 사전 훈련된 3D 객체 생성기를 사용하여 각 영역을 생성한 후, 마스크된 정류 흐름 inpainting 과정을 통해 누락된 기하학적 정보를 채우고 구조적 연속성을 유지한다. 이러한 모듈식 설계를 통해 해상도 병목 현상을 극복하고 3D 감독이나 미세 조정 없이 공간 구조를 보존한다. 다양한 장면에 대한 실험 결과, 3DTown은 Trellis, Hunyuan3D-2, TripoSG 등 최첨단 기준 모델보다 기하학적 품질, 공간 일관성, 질감 충실도 면에서 우수한 성능을 보였다.