본 논문은 실시간 시각-관성 가우시안 스플래팅과 사전 학습된 DINOv3 특징을 활용하여 동적 장면을 의미론적으로 이해하고 제어 가능한 4D 세계 모델로 재구성하는 Genie 4D 프레임워크를 제안합니다. 제안된 방법은 동적 추적 중 발생하는 동일성 드리프트를 억제하고, 확산 모델 기반 정제기로 표면 디테일을 복원하며, 최종적으로 사용자 행동에 따라 장면을 진행시킬 수 있는 경량 잠재 행동 헤드를 통해 4D 상태를 노출합니다. Genie 4D는 기존 방법의 선형 시간 복잡성을 유지하면서 3D 추적 정확도와 재구성 완성도를 향상시키며, 실시간 상호작용이 가능합니다.