본 논문은 기존의 4D 장면 생성 방법들이 갖는 한계점, 즉 사전 훈련된 3D 생성 모델에 의존하여 객체 중심적이고 현실감이 부족하다는 점과, 텍스트-비디오 모델이 공간적 이해력이 부족하다는 점을 해결하기 위해 새로운 프레임워크인 PaintScene4D를 제시합니다. PaintScene4D는 다양한 실제 데이터셋으로 훈련된 비디오 생성 모델을 활용하여 참조 비디오를 생성하고, 전략적인 카메라 배열 선택 및 진보적인 워핑과 인페인팅 기법을 통해 공간적 및 시간적 일관성을 유지하며, 동적 렌더러를 이용하여 사용자의 선호도에 따라 카메라 제어가 가능한 현실적인 4D 장면을 생성합니다. 훈련이 필요 없는 구조를 채택하여 효율적으로 4D 장면을 생성하며, 임의의 궤적에서 장면을 볼 수 있도록 합니다. 코드는 공개될 예정입니다.