Các mô hình khuếch tán vượt trội trong việc tạo dữ liệu đa chiều, nhưng hiệu quả đào tạo và chất lượng biểu diễn của chúng lại kém hơn các phương pháp học tự giám sát. Bài báo này cho thấy việc thiếu các biểu diễn chất lượng cao, giàu ngữ nghĩa trong quá trình đào tạo là một nút thắt then chốt. Phân tích hệ thống xác định một vùng xử lý biểu diễn quan trọng (lớp đầu), nơi việc học mẫu ngữ nghĩa và cấu trúc chủ yếu diễn ra trước khi mô hình thực hiện quá trình tạo. Để giải quyết vấn đề này, chúng tôi đề xuất Embedded Representation Warmup (ERW), một khuôn khổ plug-and-play khởi tạo lớp đầu của mô hình khuếch tán bằng các biểu diễn chất lượng cao, được đào tạo trước, đóng vai trò như một quá trình khởi động. Quá trình khởi động này giúp giảm bớt gánh nặng học biểu diễn từ đầu, do đó tăng tốc độ hội tụ và cải thiện hiệu suất. Hiệu quả của ERW phụ thuộc vào sự tích hợp chính xác của nó vào một lớp mạng nơ-ron cụ thể (vùng xử lý biểu diễn), nơi mô hình chủ yếu xử lý và biến đổi các biểu diễn đặc trưng cho quá trình tạo tiếp theo. ERW không chỉ tăng tốc độ hội tụ trong quá trình đào tạo mà còn cải thiện chất lượng biểu diễn, đạt được tốc độ đào tạo nhanh hơn 40 lần so với phương pháp tiên tiến hiện có, REPA.