본 논문은 로봇 학습을 위한 대규모 장면 데이터 생성 문제를 다룬다. 기존의 신경망 기반 재구성 방법은 실제 환경을 기반으로 한 대규모 야외 장면을 재구성하는 데 유용하지만, 정적 환경에 제한되고 장면 및 궤적 다양성이 부족하다는 한계가 있다. 반면, 최근의 이미지 또는 비디오 확산 모델은 제어 가능성을 제공하지만 기하학적 기반과 인과 관계가 부족하다. 본 연구는 이러한 한계를 극복하기 위해 정확한 기하학 정보를 갖는 대규모 3D 주행 장면을 직접 생성하는 방법을 제시한다. 제안된 방법은 프록시 기하 및 환경 표현 생성과 학습된 2D 이미지 사전 정보로부터의 점수 증류를 결합하여 높은 제어성을 제공하며, 지도 레이아웃을 조건으로 현실적이고 기하학적으로 일관된 복잡한 주행 장면의 3D 생성을 가능하게 한다.