기존 확산 트랜스포머는 높은 생성 품질을 보이지만, 긴 학습 반복 횟수와 많은 추론 단계를 필요로 한다는 단점이 있다. 각 잡음 제거 단계에서 확산 트랜스포머는 잡음이 포함된 입력을 인코딩하여 저주파 성분을 추출한 후, 동일한 모듈로 고주파 성분을 디코딩하는데, 이는 저주파 의미론적 인코딩과 고주파 디코딩 간의 상충 관계를 야기한다. 본 논문에서는 이러한 문제를 해결하기 위해 의미 추출을 위한 전용 조건 인코더와 특수 속도 디코더를 분리 설계한 새로운 DDT(Decoupled Diffusion Transformer)를 제안한다. 실험 결과, 모델 크기가 증가함에 따라 더 큰 인코더가 성능 향상에 기여함을 보였다. ImageNet 256x256에서 DDT-XL/2는 1.31 FID의 새로운 최첨단 성능을 달성했으며(기존 확산 트랜스포머보다 약 4배 빠른 학습 수렴), ImageNet 512x512에서는 1.28 FID를 달성했다. 또한, 분리된 아키텍처는 인접한 잡음 제거 단계 간의 자기 조건 공유를 가능하게 하여 추론 속도를 향상시킨다. 성능 저하를 최소화하기 위해 최적의 공유 전략을 식별하는 새로운 통계적 동적 프로그래밍 방식을 제안한다.