기존 확산 트랜스포머는 높은 생성 품질을 보이지만, 긴 학습 반복 횟수와 많은 추론 단계를 필요로 한다는 단점이 있다. 각 잡음 제거 단계에서 낮은 주파수의 의미 정보를 추출하기 위해 잡음이 있는 입력을 인코딩하고, 동일한 모듈로 높은 주파수 성분을 디코딩하는 방식은 의미 인코딩과 고주파 디코딩 간의 상충 관계를 야기한다. 본 논문에서는 의미 추출을 위한 전용 조건 인코더와 특수 속도 디코더를 분리 설계한 새로운 DDT(Decoupled Diffusion Transformer)를 제안한다. 실험 결과, 모델 크기가 증가함에 따라 더 큰 인코더가 성능 향상을 가져온다는 것을 보여준다. ImageNet 256x256에서 DDT-XL/2는 1.31 FID의 새로운 최첨단 성능을 달성했으며(기존 확산 트랜스포머보다 약 4배 빠른 학습 수렴), ImageNet 512x512에서는 1.28 FID를 달성했다. 또한, 분리된 아키텍처는 인접한 잡음 제거 단계 간의 자기 조건 공유를 가능하게 하여 추론 속도를 향상시킨다. 성능 저하를 최소화하기 위해 최적의 공유 전략을 식별하는 새로운 통계적 동적 프로그래밍 방식을 제안한다.