长期视频生成模型面临一个基本的长期上下文记忆问题:维护和检索长期上下文。扩散变换器在长期上下文视频生成中的应用受限于自注意力的二次方成本。为了解决这个问题,本文将其视为一项内部信息检索任务,并提出了一个简单、可学习、稀疏的注意力路由模块,称为混合上下文 (MoC),这是一个有效的长期记忆搜索引擎。在 MoC 中,每个查询都会动态地选择一些信息丰富的块和必要的锚点(字幕、局部窗口)来集中注意力。这利用因果路由来避免闭环。通过增加数据大小并逐步稀疏路由,该模型将计算分配给关键记录,从而在几分钟的内容中保留身份、动作和场景。这种基于搜索的方法实现了效率(近乎线性的扩展),实现了实际的学习和综合,并在分钟尺度上展现了记忆和一致性。