본 논문은 기존 비디오 깊이 추정 방법의 기하학적 정확성 한계를 극복하기 위해 GeometryCrafter라는 새로운 프레임워크를 제안합니다. GeometryCrafter는 점 맵 VAE(Variational Autoencoder)를 활용하여 비디오의 잠재 분포에 영향을 받지 않는 잠재 공간을 학습하고, 이를 바탕으로 비디오 확산 모델을 통해 시간적 일관성을 갖는 고정밀도 점 맵 시퀀스를 복원합니다. 이를 통해 정확한 3D/4D 재구성, 카메라 매개변수 추정 등 다양한 깊이 기반 응용 분야에 활용 가능합니다. 다양한 데이터셋에서의 실험 결과, GeometryCrafter는 최첨단의 3D 정확도, 시간적 일관성 및 일반화 성능을 달성함을 보여줍니다.