为了解决内存瓶颈导致模型可扩展性受限的问题,本文提出了一个全新的框架:$\Textit{DiffusionBlocks}$,它将基于 Transformer 的网络转换为可独立训练的块。它将残差连接视为动态系统更新,并将其转化为对去噪过程的更新,从而允许每个块独立训练。通过利用分数匹配目标逐个训练每个块,内存需求将与块数量成比例地减少。基于各种 Transformer 架构(视觉、扩散、自回归、循环深度和掩模扩散)的实验表明,$\textit{DiffusionBlocks}$ 能够扩展到实际任务,同时保持与端到端训练相当的性能。