본 논문은 U-Net 기반 확산 모델에 비해 덜 연구된 확산 트랜스포머(DiT)의 성능을 향상시키는 새로운 프레임워크인 TIDE(Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs)를 제시합니다. TIDE는 희소 오토인코더(SAE)를 활용하여 디노이징 단계 전반에 걸쳐 DiT 활성화 계층 내의 시간적 재구성을 향상시킵니다. 희소 병목 계층을 통해 해석 가능하고 계층적인 특징을 추출하여 확산 모델이 생성 사전 훈련 중에 여러 수준(예: 3D, 의미론적, 클래스)에서 계층적 특징을 학습한다는 것을 보여줍니다. TIDE는 MSE 1e-3, 코사인 유사도 0.97을 달성하여 활성화 역동성을 정확하게 포착하며, 희소 활성화 기반 이미지 편집 및 스타일 전이와 같은 다운스트림 애플리케이션에서도 우수한 성능을 보입니다. DiT에 맞춘 포괄적인 훈련 및 평가 프로토콜을 제공하여 더욱 해석 가능하고 투명하며 신뢰할 수 있는 생성 모델 개발에 기여합니다.