본 논문은 비정형 비디오로부터 역동적인 장면을 이해하는 통합적 접근법을 제시합니다. Vision-language 모델, 비디오 깊이 예측 모델, 모션 추적 모델, 분할 모델과 같은 사전 훈련된 거대 비전 기반 모델들이 유망한 기능을 제공하지만, 포괄적인 4D 이해를 위한 단일 모델 훈련은 여전히 어려움을 가지고 있습니다. 본 논문에서는 Uni4D라는 다단계 최적화 프레임워크를 소개하는데, 이는 여러 사전 훈련된 모델들을 활용하여 정적/동적 재구성, 카메라 자세 추정, 고밀도 3D 모션 추적을 포함한 동적 3D 모델링을 발전시킵니다. 실험 결과는 우수한 시각적 품질을 가진 동적 4D 모델링에서 최첨단 성능을 보여주며, 특히 Uni4D는 재훈련이나 미세 조정이 필요하지 않다는 점을 강조하며, 4D 이해를 위한 시각 기반 모델 재사용의 효과를 보여줍니다.