दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

प्रॉम्प्टड्रेसर: जेनरेटिव टेक्स्टुअल प्रॉम्प्ट और प्रॉम्प्ट-अवेयर मास्क के माध्यम से वर्चुअल ट्राई-ऑन की गुणवत्ता और नियंत्रण क्षमता में सुधार

Created by
  • Haebom

लेखक

जियोंगहो किम, होइयॉन्ग जिन, सुंगह्युन पार्क, जेगुल चू

रूपरेखा

यह शोधपत्र पाठ-आधारित वर्चुअल फिटिंग कार्यों पर केंद्रित है, जो हाल ही में अपनाए गए वर्चुअल फिटिंग तरीकों पर आधारित है, जो पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज डिफ्यूज़न मॉडल को परिष्कृत करके शक्तिशाली जनरेटिव क्षमताओं का लाभ उठाते हैं। विशेष रूप से, हम टेक्स्ट-संपादन योग्य वर्चुअल फिटिंग कार्य पर ध्यान केंद्रित करते हैं, जो प्रदान की गई कपड़ों की छवियों के आधार पर कपड़ों को संशोधित करता है और टेक्स्ट विवरणों के आधार पर पहनने की शैली (जैसे, टक-इन स्टाइल, फिटिंग) को संपादित करता है। इसे प्राप्त करने के लिए, हम तीन प्रमुख चुनौतियों का समाधान करते हैं: (I) मॉडल प्रशिक्षण के लिए युग्मित व्यक्ति-वस्त्र डेटा के लिए समृद्ध टेक्स्ट विवरण डिज़ाइन करना; (ii) उन विवादों का समाधान करना जहाँ मौजूदा व्यक्ति के कपड़ों के बारे में पाठ्य जानकारी नए कपड़ों के निर्माण में बाधा डालती है; और (iii) टेक्स्ट विवरणों के आधार पर इनपेंटिंग मास्क को अनुकूली रूप से समायोजित करना ताकि उपयुक्त संपादन क्षेत्र सुनिश्चित किए जा सकें और साथ ही मूल व्यक्ति के रूप को संरक्षित किया जा सके, जिसका नए कपड़ों से कोई संबंध नहीं है। इन चुनौतियों का समाधान करने के लिए, हम PromptDresser, एक टेक्स्ट-एडिटेबल वर्चुअल फिटिंग मॉडल, प्रस्तावित करते हैं जो टेक्स्ट प्रॉम्प्ट के आधार पर उच्च-गुणवत्ता वाले, बहुमुखी हेरफेर को सक्षम करने के लिए बड़े पैमाने के मल्टीमॉडल मॉडल (LMM) के समर्थन का लाभ उठाता है। PromptDresser, न्यूनतम मानवीय हस्तक्षेप के साथ, व्यक्ति और कपड़ों की छवियों का विस्तृत टेक्स्ट विवरण, जिसमें विस्तृत जानकारी और संपादन विशेषताएँ शामिल हैं, उत्पन्न करने के लिए इन-कॉन्टेक्स्ट लर्निंग के माध्यम से LMM का उपयोग करता है। इसके अतिरिक्त, इनपेंटिंग मास्क टेक्स्ट प्रॉम्प्ट के आधार पर अनुकूल रूप से समायोजित होता है ताकि संपादन क्षेत्र सुरक्षित रहे। प्रायोगिक परिणाम दर्शाते हैं कि PromptDresser मौजूदा विधियों से बेहतर प्रदर्शन करता है, उत्कृष्ट टेक्स्ट-आधारित नियंत्रण और विविध परिधान हेरफेर प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
हम एक नया वर्चुअल फिटिंग मॉडल प्रस्तुत करते हैं जो टेक्स्ट प्रॉम्प्ट का उपयोग करके कपड़ों की छवियों के आधार पर कपड़ों की शैली और फिट को ठीक करने की अनुमति देता है।
बड़े पैमाने पर मल्टीमॉडल मॉडल (एलएमएम) का उपयोग करके उच्च गुणवत्ता वाले, विविध परिधान हेरफेर को सक्षम बनाता है।
संदर्भगत शिक्षण के माध्यम से न्यूनतम मानवीय प्रयास से स्वचालित रूप से समृद्ध पाठ विवरण तैयार करें।
कपड़ों के उन विवरणों को प्रभावी ढंग से व्यक्त करके छवि की गुणवत्ता में सुधार करें जिन्हें केवल छवियों के माध्यम से कैप्चर करना कठिन है।
यह मौजूदा तरीकों की तुलना में बेहतर प्रदर्शन दर्शाता है।
Limitations:
संभावना यह है कि प्रस्तावित मॉडल का प्रदर्शन मूल्यांकन एक विशिष्ट डेटासेट तक सीमित हो सकता है।
विभिन्न प्रकार के कपड़ों और शरीर के प्रकारों में सामान्यीकरण का निर्धारण करने के लिए आगे अनुसंधान की आवश्यकता है।
पाठ संकेतों की अस्पष्टता या गलत व्याख्या के कारण त्रुटियों की संभावना।
चूंकि यह LMM पर अत्यधिक निर्भर है, इसलिए इसका प्रदर्शन प्रभावित हो सकता है।
👍