Les modèles de diffusion excellent dans la génération de données de grande dimension, mais leur efficacité d'apprentissage et la qualité de leurs représentations sont inférieures à celles des méthodes d'apprentissage auto-supervisées. Cet article révèle que le manque de représentations de haute qualité et sémantiquement riches pendant l'apprentissage constitue un obstacle majeur. Une analyse systématique identifie une zone cruciale de traitement des représentations (couche initiale), où l'apprentissage des modèles sémantiques et structurels se produit principalement avant la génération du modèle. Pour y remédier, nous proposons Embedded Representation Warmup (ERW), un framework prêt à l'emploi qui initialise la couche initiale d'un modèle de diffusion avec des représentations pré-entraînées de haute qualité, agissant comme un échauffement. Cet échauffement réduit la charge d'apprentissage des représentations à partir de zéro, accélérant ainsi la convergence et améliorant les performances. L'efficacité d'ERW repose sur son intégration précise dans une couche spécifique du réseau neuronal (la région de traitement des représentations), où le modèle traite et transforme principalement les représentations de caractéristiques pour la génération suivante. L'ERW accélère non seulement la convergence de la formation, mais améliore également la qualité de la représentation, atteignant expérimentalement une accélération de la formation de 40 fois par rapport à la méthode de pointe existante, REPA.