在本文中,我们提出了一种无需数据的联合训练框架 BLADE,该框架结合了自适应块稀疏注意力机制 (ASA) 和稀疏感知分步蒸馏,旨在解决 Diffusion Transformer 在高质量视频生成方面的推理瓶颈。BLADE 采用 ASA 机制,可动态生成内容感知的稀疏度掩码;以及一种稀疏感知分步蒸馏方案,可基于轨迹分布匹配 (TDM) 将稀疏性直接融入蒸馏过程。在 CogVideoX-5B 和 Wan2.1-1.3B 等文本转视频模型的实验中,BLADE 展现出显著的效率提升,在 Wan2.1-1.3B 上实现了 14.10 倍的端到端推理加速,在 CogVideoX-5B 上实现了 8.89 倍的端到端推理加速。这种加速得益于 VBench-2.0 基准测试的质量改进(CogVideoX-5B 从 0.534 到 0.569,Wan2.1-1.3B 从 0.563 到 0.570)和人工评估结果。