본 논문은 메모리 병목 현상으로 인한 모델 확장성 제한 문제를 해결하기 위해 Transformer 기반 네트워크를 독립적으로 학습 가능한 블록으로 변환하는 새로운 프레임워크인 $\textit{DiffusionBlocks}$를 제안한다. 잔차 연결을 동적 시스템 업데이트로 간주하고, 이를 노이즈 제거 프로세스의 업데이트로 변환하여 각 블록을 독립적으로 학습할 수 있도록 한다. Score matching objective를 활용하여 각 블록을 한 번에 하나씩 학습하므로 메모리 요구 사항을 블록 수에 비례하여 줄일 수 있다. 다양한 Transformer 아키텍처 (비전, 확산, 자기 회귀, 순환 깊이, 마스크 확산)에 대한 실험을 통해 $\textit{DiffusionBlocks}$가 end-to-end 훈련과 동일한 성능을 유지하면서 실용적인 작업을 확장할 수 있음을 입증했다.