每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

DiTraj:视频扩散变换器的免训练轨迹控制

Created by
  • Haebom

作者

雷成、张嘉宇、马跃、王新宇、陈龙、唐亮、严益强、苏飞、赵志成

大纲

本文提出了一个简单有效的免训练框架——DiTraj,用于文本转视频生成中的轨迹控制。该框架基于基于3D全注意力机制的扩散变换器(DiT)视频生成模型。DiTraj通过LLM将用户提供的提示解耦为前景和背景提示,以指导视频中前景和背景区域的生成。此外,它还提出了帧间时空解耦3D RoPE(STD-RoPE)来增强轨迹控制。STD-RoPE通过仅修改前景token的位置嵌入来消除跨帧空间不匹配,并调整位置嵌入的密度以实现3D感知的轨迹控制。实验结果表明,该方法在视频质量和轨迹控制性能方面均优于现有方法。

Takeaways,Limitations

Takeaways:
在基于 DiT 的视频生成模型中实现无需训练的轨迹控制。
提出了一种使用 LLM 分离前景/背景的轨迹控制框架。
通过 STD-RoPE 增强跨帧注意力,提高轨迹控制性能。
提出一种用于 3D 感知轨迹控制的位置嵌入密度控制技术。
与现有方法相比,视频质量和轨迹控制性能有所提高。
Limitations:
使用 LLM 时可能会产生额外的计算成本。
需要进一步研究 STD-RoPE 的普遍性及其在其他基于 DiT 的模型中的应用。
需要在各种轨迹类型和复杂场景中进行性能评估。
👍