Cet article propose TIDE (Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transforms), un nouveau cadre qui améliore l'interprétabilité du transformateur de diffusion (DiT), moins étudié, par rapport aux modèles de diffusion basés sur U-Net. TIDE extrait des caractéristiques d'activation éparses et interprétables du DiT au fil du temps, démontrant que ce dernier apprend naturellement la sémantique hiérarchique (par exemple, la structure 3D, les classes d'objets et les concepts détaillés) lors d'un processus de pré-apprentissage à grande échelle. Les résultats expérimentaux démontrent que TIDE améliore l'interprétabilité et la contrôlabilité tout en préservant la qualité de génération, ce qui le rend adapté à des applications telles que l'édition d'images sécurisée et le transfert de style.