본 논문은 고품질 비디오 생성을 위한 Diffusion Transformer의 추론 병목 현상을 해결하기 위해, Adaptive Block-Sparse Attention (ASA)과 sparsity-aware step distillation을 결합한 데이터 프리 joint training framework인 BLADE를 제안한다. BLADE는 content-aware sparsity mask를 동적으로 생성하는 ASA 메커니즘과, Trajectory Distribution Matching (TDM)에 기반하여 sparsity를 distillation 과정에 직접 통합하는 sparsity-aware step distillation 방식을 특징으로 한다. CogVideoX-5B 및 Wan2.1-1.3B와 같은 텍스트-비디오 모델에 대한 실험에서 BLADE는 상당한 효율성 향상을 보였으며, 특히 Wan2.1-1.3B에서 14.10x, CogVideoX-5B에서 8.89x의 end-to-end 추론 가속을 달성했다. 이러한 가속은 VBench-2.0 벤치마크에서 품질 향상(CogVideoX-5B 0.534에서 0.569로, Wan2.1-1.3B 0.563에서 0.570으로)과 인간 평가 결과로 뒷받침되었다.