यह शोधपत्र पाठ-आधारित वर्चुअल फिटिंग कार्यों पर केंद्रित है, जो हाल ही में अपनाए गए वर्चुअल फिटिंग तरीकों पर आधारित है, जो पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज डिफ्यूज़न मॉडल को परिष्कृत करके शक्तिशाली जनरेटिव क्षमताओं का लाभ उठाते हैं। विशेष रूप से, हम टेक्स्ट-संपादन योग्य वर्चुअल फिटिंग कार्य पर ध्यान केंद्रित करते हैं, जो प्रदान की गई कपड़ों की छवियों के आधार पर कपड़ों को संशोधित करता है और टेक्स्ट विवरणों के आधार पर पहनने की शैली (जैसे, टक-इन स्टाइल, फिटिंग) को संपादित करता है। इसे प्राप्त करने के लिए, हम तीन प्रमुख चुनौतियों का समाधान करते हैं: (I) मॉडल प्रशिक्षण के लिए युग्मित व्यक्ति-वस्त्र डेटा के लिए समृद्ध टेक्स्ट विवरण डिज़ाइन करना; (ii) उन विवादों का समाधान करना जहाँ मौजूदा व्यक्ति के कपड़ों के बारे में पाठ्य जानकारी नए कपड़ों के निर्माण में बाधा डालती है; और (iii) टेक्स्ट विवरणों के आधार पर इनपेंटिंग मास्क को अनुकूली रूप से समायोजित करना ताकि उपयुक्त संपादन क्षेत्र सुनिश्चित किए जा सकें और साथ ही मूल व्यक्ति के रूप को संरक्षित किया जा सके, जिसका नए कपड़ों से कोई संबंध नहीं है। इन चुनौतियों का समाधान करने के लिए, हम PromptDresser, एक टेक्स्ट-एडिटेबल वर्चुअल फिटिंग मॉडल, प्रस्तावित करते हैं जो टेक्स्ट प्रॉम्प्ट के आधार पर उच्च-गुणवत्ता वाले, बहुमुखी हेरफेर को सक्षम करने के लिए बड़े पैमाने के मल्टीमॉडल मॉडल (LMM) के समर्थन का लाभ उठाता है। PromptDresser, न्यूनतम मानवीय हस्तक्षेप के साथ, व्यक्ति और कपड़ों की छवियों का विस्तृत टेक्स्ट विवरण, जिसमें विस्तृत जानकारी और संपादन विशेषताएँ शामिल हैं, उत्पन्न करने के लिए इन-कॉन्टेक्स्ट लर्निंग के माध्यम से LMM का उपयोग करता है। इसके अतिरिक्त, इनपेंटिंग मास्क टेक्स्ट प्रॉम्प्ट के आधार पर अनुकूल रूप से समायोजित होता है ताकि संपादन क्षेत्र सुरक्षित रहे। प्रायोगिक परिणाम दर्शाते हैं कि PromptDresser मौजूदा विधियों से बेहतर प्रदर्शन करता है, उत्कृष्ट टेक्स्ट-आधारित नियंत्रण और विविध परिधान हेरफेर प्रदर्शित करता है।