每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Ctrl-VI:通过变分推理实现可控视频合成

Created by
  • Haebom

作者

段浩毅、张云志、杜逸伦、吴家骏

大纲

Ctrl-VI 是一种视频生成方法,适用于利用各种用户控制级别的视频工作流程,从精确的 4D 物体轨迹和摄像机路径到粗略的文本提示。现有的视频生成模型基于固定的输入格式进行训练,而 Ctrl-VI 生成的视频能够对特定元素保持高度可控性,同时在细节未指定的区域保持多样性。它通过变分推理来近似复杂的分布,并利用多个视频生成主干模型全面考虑所有任务约束。为了解决这个问题,我们通过逐步最小化 KL 散度定义了一个退火分布序列,并提出了一种基于上下文的分解技术来解决局部最优问题。实验结果表明,与先前的研究相比,Ctrl-VI 生成的样本具有更高的可控性、多样性和 3D 一致性。

Takeaways, Limitations

Takeaways:
通过支持用户在不同细节层面上的控制来提高灵活性。
同时实现高可控性和多样性。
确保 3D 一致性。
性能改进。
Limitations:
论文中未提及具体的Limitations。(论文摘要中缺少关于Limitations的内容。)
👍