WorldForge 是一个无需训练、推理时间即可实现的框架,旨在解决视频扩散模型的可控性和几何一致性问题。它解决了现有方法中预训练知识的退化以及与重新训练或微调相关的高计算成本问题。它通过三个模块实现精准的轨迹注入和逼真的内容生成:步内递归细化、流门控潜在融合和双路径自校正引导。每个模块在推理过程中迭代优化网络预测,利用光流相似性分离运动和外观,或通过比较引导和非引导去噪路径来校正轨迹偏差。通过各种基准测试,它展现了卓越的真实感、轨迹一致性和视觉保真度,为可控视频合成提供了一种全新的即插即用范式。