Cet article aborde les tâches d'essayage virtuel textuel, en s'appuyant sur des approches récentes qui exploitent de puissantes capacités génératives en affinant des modèles de diffusion texte-image pré-entraînés. Plus précisément, nous nous concentrons sur la tâche d'essayage virtuel textuel, qui modifie les vêtements à partir d'images fournies et modifie le style vestimentaire (par exemple, style rentré, coupe) à partir de descriptions textuelles. Pour y parvenir, nous relevons trois défis majeurs : (i) concevoir des descriptions textuelles riches pour les données appariées personne-vêtement afin d'entraîner le modèle ; (ii) résoudre les conflits lorsque les informations textuelles sur les vêtements existants interfèrent avec la génération de nouveaux vêtements ; et (iii) ajuster de manière adaptative les masques d'inpainting à partir des descriptions textuelles afin de garantir des zones d'édition appropriées tout en préservant l'apparence de la personne d'origine, qui n'a aucun lien avec les nouveaux vêtements. Pour relever ces défis, nous proposons PromptDresser, un modèle d'essayage virtuel textuel qui s'appuie sur la prise en charge des modèles multimodaux à grande échelle (LMM) pour permettre des manipulations polyvalentes et de haute qualité à partir de messages textuels. PromptDresser utilise des LMM par apprentissage contextuel pour générer des descriptions textuelles détaillées d'images de personnes et de vêtements, incluant des informations détaillées et des attributs d'édition, avec une intervention humaine minimale. De plus, le masque d'inpainting s'ajuste de manière adaptative en fonction des invites textuelles pour garantir la sécurité de la zone d'édition. Les résultats expérimentaux démontrent que PromptDresser surpasse les méthodes existantes, offrant un excellent contrôle textuel et une manipulation diversifiée des vêtements.