[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Code latent discret compositionnel pour modèles de diffusion productive haute fidélité

Created by
  • Haebom

Auteur

Samuel Lavoie, Michael Noukhovitch, Aaron Courville

Contour

Cet article soutient que le succès des modèles de diffusion est en grande partie dû au conditionnement des entrées. Par conséquent, nous étudions les représentations utilisées pour conditionner les modèles de diffusion, considérant qu'une représentation idéale devrait améliorer la fidélité des échantillons, être facile à générer et configurable pour permettre la génération d'échantillons hors apprentissage. Nous introduisons des codes latents discrets (DLC), dérivés de simples plongements composés entraînés avec des objectifs d'apprentissage auto-supervisés. Contrairement aux plongements d'images continus standard, les DLC sont des séquences de jetons discrets. Ils sont faciles à générer et leur configurabilité permet d'échantillonner de nouvelles images au-delà de la distribution d'apprentissage. Les modèles de diffusion entraînés par DLC atteignent une fidélité de génération améliorée, établissant un nouvel état de l'art en génération d'images inconditionnelles sur ImageNet. Nous montrons également que la construction de DLC permet aux générateurs d'images de générer des échantillons hors distribution qui combinent systématiquement la signification des images de diverses manières. Enfin, nous démontrons comment les DLC permettent la génération de texte en image en exploitant de grands modèles de langage pré-entraînés. Nous affinons efficacement les modèles de langage de diffusion de texte pour générer des DLC qui génèrent de nouveaux échantillons en dehors de la distribution d'entraînement du générateur d'images.

Takeaways, Limitations

Takeaways:
En utilisant des codes latents discrets (DLC), nous améliorons la fidélité générative des modèles de diffusion et atteignons un nouvel état de l'art sur ImageNet.
Nous démontrons que la composabilité du DLC permet la génération de nouvelles images au-delà de la distribution d'entraînement et la combinaison d'images avec des significations différentes.
La combinaison de modèles linguistiques pré-entraînés à grande échelle avec DLC permet une génération efficace de texte en image.
Limitations:
Les performances du DLC peuvent être limitées à un ensemble de données spécifique (ImageNet). Une évaluation des performances de généralisation sur d'autres ensembles de données est nécessaire.
Des recherches supplémentaires sont nécessaires sur le coût de calcul et l’efficacité du processus de génération de DLC.
Une analyse plus approfondie est nécessaire sur les limites et les contraintes de la configurabilité du DLC.
👍