Este artículo aborda tareas de ajuste virtual basadas en texto, basándose en enfoques recientes de ajuste virtual que aprovechan potentes capacidades generativas mediante el ajuste fino de modelos de difusión de texto a imagen preentrenados. Específicamente, nos centramos en la tarea de ajuste virtual editable con texto, que modifica la ropa basándose en imágenes de ropa proporcionadas y edita el estilo de uso (p. ej., estilo de faja, ajuste) basándose en descripciones de texto. Para lograr esto, abordamos tres desafíos clave: (i) diseñar descripciones de texto enriquecidas para datos emparejados de persona-ropa para el entrenamiento del modelo; (ii) resolver conflictos donde la información textual sobre la ropa existente de la persona interfiere con la generación de nueva ropa; y (iii) ajustar adaptativamente las máscaras de pintura basadas en descripciones de texto para garantizar áreas de edición apropiadas, preservando al mismo tiempo la apariencia original de la persona, que no está relacionada con la nueva ropa. Para abordar estos desafíos, proponemos PromptDresser, un modelo de ajuste virtual editable con texto que aprovecha el soporte de modelos multimodales a gran escala (LMM) para permitir manipulaciones versátiles y de alta calidad basadas en indicaciones de texto. PromptDresser utiliza LMM mediante aprendizaje en contexto para generar descripciones textuales detalladas de imágenes de personas y prendas, incluyendo información detallada y atributos de edición, con mínima intervención humana. Además, la máscara de retoque se ajusta automáticamente según las indicaciones de texto para garantizar la seguridad del área de edición. Los resultados experimentales demuestran que PromptDresser supera a los métodos existentes, demostrando un excelente control basado en texto y una manipulación diversa de las prendas.