每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

BLADE:块稀疏注意力与分步蒸馏相结合,实现高效视频生成

Created by
  • Haebom

作者

顾佑平、李小龙、胡宇豪、陈敏琪、庄博涵

BLADE:用于视频生成的扩散变换器的无数据联合加速

大纲

在本文中,我们提出了一种无需数据的联合训练框架 BLADE,该框架结合了自适应块稀疏注意力机制 (ASA) 和稀疏感知分步蒸馏,旨在解决 Diffusion Transformer 在高质量视频生成方面的推理瓶颈。BLADE 采用 ASA 机制,可动态生成内容感知的稀疏度掩码;以及一种稀疏感知分步蒸馏方案,可基于轨迹分布匹配 (TDM) 将稀疏性直接融入蒸馏过程。在 CogVideoX-5B 和 Wan2.1-1.3B 等文本转视频模型的实验中,BLADE 展现出显著的效率提升,在 Wan2.1-1.3B 上实现了 14.10 倍的端到端推理加速,在 CogVideoX-5B 上实现了 8.89 倍的端到端推理加速。这种加速得益于 VBench-2.0 基准测试的质量改进(CogVideoX-5B 从 0.534 到 0.569,Wan2.1-1.3B 从 0.563 到 0.570)和人工评估结果。

Takeaways, Limitations

Takeaways:
显著提高基于 Diffusion Transformer 的视频生成模型的推理速度。
提出一种无需使用数据即可实现高效加速的创新框架。
提高速度的同时提高视频创作质量。
已证明适用于各种尺寸的模型。
Limitations:
论文中没有具体说明Limitations。
(可推断)特定模型和数据集可能存在性能偏差。
(可推断)由于 ASA 和 TDM 的复杂性,实施和调整困难。
👍