Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PromptDresser : Amélioration de la qualité et de la contrôlabilité de l'essayage virtuel grâce à une invite textuelle générative et un masque sensible à l'invite

Created by
  • Haebom

Auteur

Jeongho Kim, Hoiyeong Jin, parc Sunghyun, Jaegul Choo

Contour

Cet article aborde les tâches d'essayage virtuel textuel, en s'appuyant sur des approches récentes qui exploitent de puissantes capacités génératives en affinant des modèles de diffusion texte-image pré-entraînés. Plus précisément, nous nous concentrons sur la tâche d'essayage virtuel textuel, qui modifie les vêtements à partir d'images fournies et modifie le style vestimentaire (par exemple, style rentré, coupe) à partir de descriptions textuelles. Pour y parvenir, nous relevons trois défis majeurs : (i) concevoir des descriptions textuelles riches pour les données appariées personne-vêtement afin d'entraîner le modèle ; (ii) résoudre les conflits lorsque les informations textuelles sur les vêtements existants interfèrent avec la génération de nouveaux vêtements ; et (iii) ajuster de manière adaptative les masques d'inpainting à partir des descriptions textuelles afin de garantir des zones d'édition appropriées tout en préservant l'apparence de la personne d'origine, qui n'a aucun lien avec les nouveaux vêtements. Pour relever ces défis, nous proposons PromptDresser, un modèle d'essayage virtuel textuel qui s'appuie sur la prise en charge des modèles multimodaux à grande échelle (LMM) pour permettre des manipulations polyvalentes et de haute qualité à partir de messages textuels. PromptDresser utilise des LMM par apprentissage contextuel pour générer des descriptions textuelles détaillées d'images de personnes et de vêtements, incluant des informations détaillées et des attributs d'édition, avec une intervention humaine minimale. De plus, le masque d'inpainting s'ajuste de manière adaptative en fonction des invites textuelles pour garantir la sécurité de la zone d'édition. Les résultats expérimentaux démontrent que PromptDresser surpasse les méthodes existantes, offrant un excellent contrôle textuel et une manipulation diversifiée des vêtements.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau modèle d'essayage virtuel qui permet d'affiner le style et la coupe des vêtements en fonction d'images de vêtements à l'aide d'invites textuelles.
Permet une manipulation de vêtements diversifiée et de haute qualité à l'aide de modèles multimodaux à grande échelle (LMM).
Générez automatiquement des descriptions de texte enrichies avec un effort humain minimal grâce à l'apprentissage contextuel.
Améliorez la qualité de l'image en transmettant efficacement les détails des vêtements qui sont difficiles à capturer avec des images seules.
Il montre de meilleures performances que les méthodes existantes.
Limitations:
La possibilité que l’évaluation des performances du modèle proposé soit limitée à un ensemble de données spécifique.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à différents types de vêtements et types de corps.
Risque d’erreurs dues à l’ambiguïté ou à une mauvaise interprétation des invites textuelles.
Parce qu’il dépend fortement du LMM, ses performances peuvent être affectées.
👍