拡散モデルは高次元データ生成に優れていますが、自己地図学習方式と比較してトレーニング効率と表現品質が低下します。本論文では,訓練中の高品質の意味豊かな表現の活用不足が主なボトルネックであることを明らかにした。体系的な分析により、モデルが生成を実行する前に、意味と構造的なパターン学習が主に行われる重要な表現処理領域(初期層)を確認しました。これを解決するために、本論文では、事前に訓練された高品質表現で拡散モデルの初期層を初期化するウォームアップとして機能するプラグアンドプレイフレームワークであるEmbedded Representation Warmup(ERW)を提案します。このウォーミングアップは、最初から表現を学習する負担を減らし、収束速度を高め、パフォーマンスを向上させます。 ERWの効果は、特定のニューラルネットワーク層(表現処理領域)に正確に統合されることに依存し、この領域では、モデルは後続の生成のための特徴表現を主に処理して変換します。 ERWは訓練収束速度を高めるだけでなく、表現品質も向上させ、実験的に従来の最先端方法であるREPAに比べて40倍の訓練速度向上を達成しました。