Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Régularisation de la gaussianité basée sur le spectre de moment et de puissance pour les modèles texte-image

Created by
  • Haebom

Auteur

Jisung Hwang, Jaihoon Kim, Minhyuk Sung

Contour

Cet article propose une nouvelle perte de régularisation qui guide les échantillons vers une distribution gaussienne standard afin de faciliter diverses tâches ultérieures, notamment l'optimisation dans l'espace latent des modèles texte-image. Nous traitons les éléments des échantillons de grande dimension comme des variables gaussiennes standard unidimensionnelles dans le domaine spatial et définissons une perte composite combinant une régularisation basée sur les moments dans le domaine spatial et une régularisation basée sur le spectre de puissance dans le domaine spectral. Les valeurs attendues des distributions des moments et du spectre de puissance étant connues analytiquement, cette perte facilite la cohérence avec ces propriétés. Pour garantir l'invariance par permutation, la perte est appliquée à des entrées permutées aléatoirement. Notamment, les régularisations gaussiennes existantes sont intégrées dans notre cadre unifié. Si certaines correspondent à des pertes de moments d'un certain ordre, les pertes de correspondance de covariance antérieures sont équivalentes à notre perte spectrale, mais entraînent une complexité temporelle plus élevée en raison du calcul dans le domaine spatial. Dans cet article, nous démontrons l'application de notre régularisation à la modélisation générative pour l'alignement de compensation au moment du test à l'aide de modèles texte-image, en nous concentrant spécifiquement sur l'amélioration de l'esthétique et de l'alignement du texte. La régularisation proposée surpasse la régularisation gaussienne existante, empêchant efficacement le piratage de compensation et accélérant la convergence.

Takeaways, Limitations

Takeaways:
Une nouvelle perte de régularisation est proposée pour induire un alignement d'échantillon pour la distribution gaussienne standard.
Nous présentons un cadre intégré qui combine la normalisation basée sur les moments dans le domaine spatial et la normalisation basée sur le spectre de puissance dans le domaine spectral.
A démontré des performances améliorées par rapport à la régularisation gaussienne conventionnelle, la prévention du piratage de compensation et une vitesse de convergence améliorée.
Nous présentons l’applicabilité des modèles texte-image pour améliorer l’esthétique et l’alignement du texte.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la perte de régularisation proposée.
Une validation expérimentale approfondie est nécessaire pour divers modèles de conversion de texte en image et tâches en aval.
Augmentation potentielle des coûts de calcul en raison du traitement de données de grande dimension.
👍