Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Contrôlabilité améliorée des modèles de diffusion via des méthodes de démêlage des caractéristiques et d'échantillonnage à réalisme amélioré

Created by
  • Haebom

Auteur

Wonwoong Cho, Hareesh Ravi, Midhun Harikumar, Vinh Khuc, Krishna Kumar Singh, Jingwan Lu, David I. Inouye, Ajinkya Kale

Contour

Dans cet article, nous présentons FDiff (Feature Disentanglement for Diffusion Models), un nouveau cadre d'apprentissage visant à améliorer la contrôlabilité des modèles de diffusion. FDiff entraîne un modèle de diffusion conditionné par deux caractéristiques latentes : les masques de contenu spatial et les incorporations de style aplaties. Cela permet d'encoder les informations de pose/mise en page dans les caractéristiques de contenu, et les informations sémantiques/style dans les caractéristiques de style. De plus, nous proposons des modèles de diffusion composables généralisés (GCDM), qui généralisent le modèle de diffusion composable (CDM) en autorisant les dépendances entre les entrées conditionnelles et la planification des pondérations en fonction du pas de temps pour les caractéristiques de contenu et de style afin d'améliorer le réalisme et la contrôlabilité des images générées. Les résultats expérimentaux montrent que la méthode proposée présente une meilleure contrôlabilité que les méthodes existantes de manipulation et de transformation d'images.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre d’apprentissage (FDiff) qui améliore la contrôlabilité en séparant l’espace latent des modèles de diffusion.
Proposition de techniques de planification de poids dépendant du pas de temps et de GCDM pour une génération d'images réalistes et une meilleure contrôlabilité.
Démontre des performances et une contrôlabilité supérieures aux méthodes existantes dans les tâches de manipulation et de transformation d'images.
Limitations:
Des expériences supplémentaires peuvent être nécessaires pour déterminer les performances de généralisation de la méthode proposée.
L’optimisation pour un type spécifique de données peut entraîner de mauvaises performances de généralisation à d’autres ensembles de données.
Une analyse plus approfondie peut être nécessaire sur l'exhaustivité de la séparation de l'espace latent et les limites de la modélisation des dépendances du GCDM.
👍