Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control

Created by

Haebom

저자

Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang

💡 개요

기존 비디오 확산 모델은 강력한 세계관을 지녔으나, 공간 제어의 어려움, 시공간적 불일치, 장면-카메라 역학의 복잡성 때문에 공간 관련 작업에 활용하기 어려웠습니다. 본 논문은 이러한 문제를 해결하기 위해 모델 재학습 없이 추론 시점에 작동하는 WorldForge라는 새로운 프레임워크를 제안합니다. WorldForge는 정밀한 모션 안내를 위한 단계별 정제 루프, 모션과 외형 분리를 위한 광학 흐름 기반 채널 분리, 그리고 참조 생성과의 비교를 통한 드리프트 보정을 위한 이중 경로 안내 전략을 통해 정확한 궤적 제어와 사실적인 합성을 달성합니다.

🔑 시사점 및 한계

•

정밀한 3D/4D 생성 및 제어: WorldForge는 모델 재학습 없이도 원하는 카메라 궤적을 따르는 정밀한 3D 및 4D 콘텐츠 생성을 가능하게 합니다.

•

다양한 다운스트림 응용 가능성: 비디오 편집, 안정화, 가상 착용 등 다양한 비전 작업에 플러그 앤 플레이 방식으로 적용되어 성능을 향상시킬 수 있습니다.

•

데이터 종속성 및 복잡한 장면에서의 성능: 제안된 방법이 학습되지 않은 복잡한 장면이나 극단적인 카메라 움직임에서도 일관된 성능을 유지할 수 있는지에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage