단일 시점 이미지로부터 실내외의 자연스러운 장면의 새로운 뷰를 생성하는 것은 탐구되지 않은 문제이며, 본 논문은 이 문제를 해결하기 위해 3D diffusion 모델인 DT-NVS를 제안합니다. DT-NVS는 대규모의 실제 세계, 다중 범주, 정렬되지 않은, 일상적인 장면의 비디오 데이터 세트에 대한 이미지 기반 손실로 훈련되었습니다. 본 논문은 변환기 기반 아키텍처를 활용하여 이미지를 3D 표현으로 변환하고, 실제 세계의 정렬되지 않은 데이터 세트에서 훈련할 수 있는 새로운 카메라 조건화 전략을 제시하며, 참조 프레임 역할을 변경하는 새로운 훈련 패러다임을 도입합니다. 제안된 DT-NVS는 단일 입력 이미지로부터 일반화된 새로운 뷰 합성에 대해 기존의 3D diffusion 모델 및 결정론적 접근 방식보다 성능을 향상시키면서 다양한 출력을 생성합니다.