단안 비디오에서 알 수 없는 카메라 포즈를 가진 동적 장면의 새로운 뷰 합성은 컴퓨터 비전 및 그래픽스 분야의 근본적인 과제입니다. 4D3R은 정적 및 동적 구성 요소를 분리하는 2단계 접근 방식을 통해 포즈가 없는 동적 신경 렌더링 프레임워크입니다. 이 방법은 3D 기본 모델을 활용하여 초기 포즈 및 형상 추정을 수행한 다음 모션 인식 개선을 수행합니다. 4D3R은 두 가지 주요 기술 혁신을 도입합니다: (1) 변환기 기반 학습 사전과 SAM2를 결합하여 보다 정확한 카메라 포즈 개선을 가능하게 하는 모션 인식 번들 조정(MA-BA) 모듈, (2) 변형 필드 MLP 및 선형 블렌드 스키닝을 사용하여 동적 모션을 모델링하여 계산 비용을 크게 줄이면서 고품질 재구성을 유지하는 효율적인 모션 인식 Gaussian Splatting(MA-GS) 표현. 실제 동적 데이터 세트에 대한 광범위한 실험 결과에 따르면 이 접근 방식은 특히 큰 동적 객체가 있는 까다로운 시나리오에서 최첨단 방법보다 최대 1.8dB PSNR 개선을 달성하는 동시에 이전 동적 장면 표현에 비해 계산 요구 사항을 5배 줄입니다.