每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

WorldForge:通过免训练指导解锁视频传播模型中的新兴 3D/4D 生成

Created by
  • Haebom

作者

宋晨曦、杨彦明、赵通、李瑞波、张驰

大纲

WorldForge 是一个无需训练、推理时间即可实现的框架,旨在解决视频扩散模型的可控性和几何一致性问题。它解决了现有方法中预训练知识的退化以及与重新训练或微调相关的高计算成本问题。它通过三个模块实现精准的轨迹注入和逼真的内容生成:步内递归细化、流门控潜在融合和双路径自校正引导。每个模块在推理过程中迭代优化网络预测,利用光流相似性分离运动和外观,或通过比较引导和非引导去噪路径来校正轨迹偏差。通过各种基准测试,它展现了卓越的真实感、轨迹一致性和视觉保真度,为可控视频合成提供了一种全新的即插即用范式。

Takeaways, Limitations

Takeaways:
我们提出了一种新方法来提高视频传播模型的可控性,无需训练。
解决因重新训练/微调现有方法而导致的问题(计算成本增加、预训练知识减少)。
同时实现精确的轨迹控制和逼真的内容创作。
在视频合成中引入一种新的即插即用范例。
在各种基准测试中表现出色。
Limitations:
缺乏对所提出的三个模块的交互和优化过程的详细描述。
某些类型的视频数据可能存在性能偏差。
缺乏对不同视频长度和复杂度的泛化性能的验证。
缺乏实时处理性能的分析。
👍