每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

混合上下文生成长视频

Created by
  • Haebom

作者

蔡胜渠、杨策源、张吕敏、郭宇伟、肖俊飞、杨子彦、徐英豪、杨振恒、Alan Yuille、Leonidas Guibas、Maneesh Agrawala、Lu Jiang、Gordon Wetzstein

大纲

长期视频生成模型面临一个基本的长期上下文记忆问题:维护和检索长期上下文。扩散变换器在长期上下文视频生成中的应用受限于自注意力的二次方成本。为了解决这个问题,本文将其视为一项内部信息检索任务,并提出了一个简单、可学习、稀疏的注意力路由模块,称为混合上下文 (MoC),这是一个有效的长期记忆搜索引擎。在 MoC 中,每个查询都会动态地选择一些信息丰富的块和必要的锚点(字幕、局部窗口)来集中注意力。这利用因果路由来避免闭环。通过增加数据大小并逐步稀疏路由,该模型将计算分配给关键记录,从而在几分钟的内容中保留身份、动作和场景。这种基于搜索的方法实现了效率(近乎线性的扩展),实现了实际的学习和综合,并在分钟尺度上展现了记忆和一致性。

Takeaways, Limitations

Takeaways:
通过将长期视频生成问题重新定义为内部信息检索来解决该问题。
通过 MoC 模块实现稀疏注意力,有效解决长期记忆问题。
在分秒必争的视频创作中保持身份、动作、场景的一致性。
通过高效的计算实现实践学习和综合。
Limitations:
论文中没有具体提及Limitations。
👍