本論文は,従来のVAE(Variational Autoencoders)ベースの潜在拡散モデルが持つ訓練効率,推論速度低下,広範なビジョンタスクへの転移性不足問題を解決するために,VAEを使用せずに自己地図学習表現を活用する新しい潜在拡散モデルであるSelf-supervised Visual Generation(提案)を提案する。 SVGは、DINOの固定された特徴を活用して、意味論的にはっきりと区別される特徴空間を構築し、軽量残差分岐を通じて高品質の再構成のための詳細をキャプチャします。これにより、SVGは拡散トレーニングの加速、少ない段階のサンプリングサポート、生成品質の向上を可能にします。