每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

打包并强化你的记忆:长篇且一致的视频生成

Created by
  • Haebom

作者

吴晓飞、张国祯、徐志勇、周袁、路青林、何旭明

大纲

本文提出了 MemoryPack 和 Direct Forcing 算法,旨在解决长视频生成模型面临的两大关键挑战:捕捉长距离依赖关系以及自回归解码导致的误差累积。MemoryPack 利用文本和图像信息,联合建模短期和长期依赖关系;而 Direct Forcing 算法则改进了学习-推理的一致性,以减少推理过程中的误差传播。

Takeaways, Limitations

MemoryPack 提供动态上下文建模,可随视频长度扩展,同时实现分钟级时间一致性并保持计算效率。
直接强制通过单步近似策略来改善学习推理一致性,以抑制错误传播。
提高自回归视频模型的实际可用性。
论文中没有提供具体的实验结果和性能比较的信息。
需要进一步研究来探索该模型的泛化性能和对各种类型视频生成的适用性。
👍