Genie 4D: Semantic-Prior-Guided 4D Dynamic Scene Reconstruction

Author

Haebom

Category

Empty

저자

Yiru Yang, Zhuojie Wu, Nishant Kumar Singh, Max Schulthess

💡 개요

본 논문은 실시간 시각-관성 가우시안 스플래팅과 사전 학습된 DINOv3 특징을 활용하여 동적 장면을 의미론적으로 이해하고 제어 가능한 4D 세계 모델로 재구성하는 Genie 4D 프레임워크를 제안합니다. 제안된 방법은 동적 추적 중 발생하는 동일성 드리프트를 억제하고, 확산 모델 기반 정제기로 표면 디테일을 복원하며, 최종적으로 사용자 행동에 따라 장면을 진행시킬 수 있는 경량 잠재 행동 헤드를 통해 4D 상태를 노출합니다. Genie 4D는 기존 방법의 선형 시간 복잡성을 유지하면서 3D 추적 정확도와 재구성 완성도를 향상시키며, 실시간 상호작용이 가능합니다.

🔑 시사점 및 한계

•

의미론적 이해를 통한 4D 동적 장면 재구성: 고수준 의미론적 정보를 활용하여 저수준 기하학적 정보를 연결함으로써, 단순히 형상뿐만 아니라 의미까지 파악하는 4D 재구성의 가능성을 제시합니다.

•

행동 제어 가능한 4D 세계 모델 구축: 재구성된 4D 장면을 사용자 행동에 따라 예측하고 진행시킬 수 있는 모델을 구축하여, 로봇 공학 및 가상 환경 상호작용에 대한 새로운 길을 열었습니다.

•

실용적인 성능: 실시간 처리 속도와 단일 소비자 GPU에서의 실행 가능성을 보여주어, 실제 환경 적용 가능성을 높였습니다.

•

확산 모델의 역할: 확산 모델을 사용하여 기존 회귀 기반 모델에서 손실될 수 있는 고주파 표면 디테일을 복원하는 효과를 확인했습니다.

•

계산적 효율성: 피드포워드 기반선과 동일한 O(T)의 선형 시간 복잡성을 유지하면서 성능 향상을 달성했습니다.

•

한계점/향후 과제:

◦

DINOv3와 같은 사전 학습된 모델에 대한 의존성이 존재합니다.

◦

복잡하거나 급격한 동적 변화가 많은 장면에서의 성능은 추가적인 검증이 필요할 수 있습니다.

◦

JEPA 스타일의 다음 임베딩 목적 함수가 4D 장면의 모든 측면을 효과적으로 포착하는지에 대한 심층적인 분석이 필요합니다.

Made with Slashpage