Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Moment- and Power-Spectrum-Based Gaussianity Regularization for Text-to-Image Models

Created by
  • Haebom

作者

Jisung Hwang, Jaihoon Kim, Minhyuk Sung

概要

本論文は、テキスト画像モデルの潜在空間で最適化を含むさまざまな後続の作業を容易にするために、標準ガウス分布との整列を促進する新しい正規化損失を提案します。高次元サンプルの要素を一次元標準ガウス変数として扱い、空間領域でのモーメントベースの正規化とスペクトル領域のパワースペクトルベースの正規化を組み合わせた複合損失を定義します。モーメントとパワースペクトル分布の期待値は分析的に知られているため、この損失はその特性との一致を促進します。順列不変性を保証するために、損失はランダムに順列化された入力に適用されます。注目すべきことに、既存のガウスベースの正規化は私たちの統合フレームワークに含まれています。一部は特定の次数のモーメント損失に対応し、以前の共分散マッチング損失は私たちのスペクトル損失と同じですが、空間領域の計算により高い時間の複雑さをもたらします。本稿では、テキスト画像モデルを使用した生成モデリングにおけるテスト時間補償アライメントへの正規化の適用、特に美学とテキストアライメントの改善を示しています。提案する正規化は、以前のガウス正規化よりも優れており、補償ハッキングを効果的に防止し、収束を高速化します。

Takeaways、Limitations

Takeaways:
標準ガウス分布の整列を促進する新しい正規化損失の提案
既存のガウスベースの正規化方法を統合する統合フレームワークを提供します。
テキスト - 画像モデルの美学とテキストの整列を改善するための効果的な正規化方法を提示します。
補償ハッキング防止と収束速度の向上。
Limitations:
提案された正規化損失の一般的な性能評価がさらに必要になる場合がある。
さまざまなテキスト画像モデルとアプリケーションの広範な実験的評価が必要です。
特定の種類のデータまたはモデルに過度に特化する可能性があります。
👍