Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mode à profusion ! Multi-conditionnement pour la génération d'images par association croquis-texte

Created by
  • Haebom

Auteur

Federico Girella, Davide Talon, Ziyue Liu, Zanxi Ruan, Yiming Wang, Marco Cristani

Contour

Cet article présente LOTS (LOcalized Text and Sketch for fashion image generation), une méthode de génération d'images de mode combinant des esquisses et des informations textuelles, prenant en compte la complexité du processus créatif de la création de mode. LOTS combine des descriptions globales avec des informations locales d'esquisse et de texte pour générer des images de mode complètes grâce à une stratégie de fusion par étapes basée sur un modèle de diffusion. Grâce à une représentation modulaire centrée sur les paires, l'esquisse et le texte sont codés dans un espace latent partagé tout en conservant des caractéristiques locales indépendantes. Un guidage basé sur l'attention intègre les conditions locales et globales lors du processus de débruitage en plusieurs étapes du modèle de diffusion. Nous présentons un nouvel ensemble de données de mode, Sketchy, et démontrons sa supériorité par rapport aux méthodes existantes par des évaluations quantitatives et qualitatives.

Takeaways, Limitations

Takeaways:
Combinez efficacement les informations d'esquisse et de texte pour améliorer la précision et les détails de la création d'images de mode.
Nous présentons une nouvelle façon de contrôler les détails d’une conception en exploitant les informations locales.
Nous publions un nouvel ensemble de données sur la mode, Sketchy, pour contribuer aux recherches futures.
Il peut contribuer à l’avancement de la conception de mode en obtenant des performances supérieures par rapport aux méthodes existantes.
Limitations:
La taille et la diversité de l’ensemble de données Sketchy pourraient être améliorées à l’avenir.
Il se peut qu’il ne reflète pas parfaitement tous les aspects de la conception de mode complexe.
Il est nécessaire de définir clairement les différences entre le processus de conception de mode du monde réel et le processus de conception de mode du monde réel.
👍