기존 비디오 확산 모델은 강력한 세계관을 지녔으나, 공간 제어의 어려움, 시공간적 불일치, 장면-카메라 역학의 복잡성 때문에 공간 관련 작업에 활용하기 어려웠습니다. 본 논문은 이러한 문제를 해결하기 위해 모델 재학습 없이 추론 시점에 작동하는 WorldForge라는 새로운 프레임워크를 제안합니다. WorldForge는 정밀한 모션 안내를 위한 단계별 정제 루프, 모션과 외형 분리를 위한 광학 흐름 기반 채널 분리, 그리고 참조 생성과의 비교를 통한 드리프트 보정을 위한 이중 경로 안내 전략을 통해 정확한 궤적 제어와 사실적인 합성을 달성합니다.