본 논문은 확산 모델의 훈련 효율성과 생성 성능을 동시에 향상시키는 새로운 방법인 TREAD를 제안합니다. TREAD는 모델의 초기 레이어에서 깊은 레이어로 무작위로 선택된 토큰을 전달하는 메커니즘을 통해 작동하며, 트랜스포머 기반 모델뿐 아니라 상태 공간 모델에도 적용 가능합니다. 추가적인 매개변수나 구조 변경 없이 ImageNet-256 벤치마크에서 계산 비용을 줄이고 생성 성능을 향상시키는 것을 보여줍니다. DiT와 비교하여 400K 훈련 반복에서 14배, 7M 훈련 반복에서 37배의 수렴 속도 향상을 달성했으며, 지도 학습 환경에서 2.09, 비지도 학습 환경에서 3.93의 FID 점수를 기록하여 기존 DiT보다 성능이 향상되었습니다.