Ctrl-VI 是一种视频生成方法,适用于利用各种用户控制级别的视频工作流程,从精确的 4D 物体轨迹和摄像机路径到粗略的文本提示。现有的视频生成模型基于固定的输入格式进行训练,而 Ctrl-VI 生成的视频能够对特定元素保持高度可控性,同时在细节未指定的区域保持多样性。它通过变分推理来近似复杂的分布,并利用多个视频生成主干模型全面考虑所有任务约束。为了解决这个问题,我们通过逐步最小化 KL 散度定义了一个退火分布序列,并提出了一种基于上下文的分解技术来解决局部最优问题。实验结果表明,与先前的研究相比,Ctrl-VI 生成的样本具有更高的可控性、多样性和 3D 一致性。