WorldForge는 비디오 확산 모델의 제어 가능성과 기하학적 일관성 부족 문제를 해결하기 위해 제안된 훈련이 필요 없는 추론 시간 프레임워크입니다. 기존 방법들의 재훈련 또는 미세 조정으로 인한 사전 학습 지식 저하 및 높은 계산 비용 문제를 해결하고자, 세 가지 모듈 (Intra-Step Recursive Refinement, Flow-Gated Latent Fusion, Dual-Path Self-Corrective Guidance)을 통해 정밀한 궤적 주입과 사실적인 콘텐츠 생성을 가능하게 합니다. 각 모듈은 추론 과정에서 네트워크 예측을 반복적으로 최적화하거나, 광학 흐름 유사성을 이용하여 움직임과 외관을 분리하거나, 안내된/안내되지 않은 잡음 제거 경로를 비교하여 궤적 편차를 수정하는 역할을 수행합니다. 다양한 벤치마크 실험을 통해 현실성, 궤적 일관성, 시각적 충실도 면에서 우수성을 입증하였으며, 제어 가능한 비디오 합성을 위한 새로운 플러그 앤 플레이 패러다임을 제시합니다.