Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Latent Diffusion Model without Variational Autoencoder

Created by
  • Haebom

作者

Minglei Shi、Haolin Wang、Wenzhao Zheng、Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan、Jie Zhou、Jiwen Lu

概要

本論文は,従来のVAE(Variational Autoencoders)ベースの潜在拡散モデルが持つ訓練効率,推論速度低下,広範なビジョンタスクへの転移性不足問題を解決するために,VAEを使用せずに自己地図学習表現を活用する新しい潜在拡散モデルであるSelf-supervised Visual Generation(提案)を提案する。 SVGは、DINOの固定された特徴を活用して、意味論的にはっきりと区別される特徴空間を構築し、軽量残差分岐を通じて高品質の再構成のための詳細をキャプチャします。これにより、SVGは拡散トレーニングの加速、少ない段階のサンプリングサポート、生成品質の向上を可能にします。

Takeaways、Limitations

VAEのない潜在拡散モデルであるSVGを介してトレーニング効率、推論速度、転移性問題を改善。
DINOの固定特徴を活用して意味論的にはっきりとした特徴空間を構築。
少ないステップのサンプリングで高品質の画像生成が可能。
自己指導学習表現の意味論的、判別的能力を​​維持する。
Limitations:特定のパフォーマンス指標と他のモデルとの比較、さまざまな視覚的タスクの一般化パフォーマンスに関する追加の研究が必要です。
👍