दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डोमेन सामान्यीकरण योग्य पोर्ट्रेट शैली स्थानांतरण

Created by
  • Haebom

लेखक

ज़िनबो वांग, वेनजू जू, किंग झांग, वेई-शी झेंग

रूपरेखा

यह शोधपत्र एक पोर्ट्रेट शैली स्थानांतरण विधि प्रस्तुत करता है जो विभिन्न क्षेत्रों में व्यापक होती है और बाल, आँखें, पलकें, त्वचा, होंठ और पृष्ठभूमि जैसे क्षेत्रों के लिए उच्च-गुणवत्ता वाले अर्थपूर्ण संरेखित शैली स्थानांतरण को सक्षम बनाती है। इसके लिए, हम एक पूर्व-प्रशिक्षित मॉडल और एक अर्थपूर्ण एडाप्टर के आधार पर दिए गए इनपुट और संदर्भ पोर्ट्रेट के बीच एक सघन अर्थपूर्ण संगति स्थापित करके एक विकृत संदर्भ प्राप्त करते हैं जो इनपुट के साथ अर्थपूर्ण रूप से संरेखित होता है। कुशल और नियंत्रणीय शैली स्थानांतरण सुनिश्चित करने के लिए, हमने AdaIN-वेवलेट रूपांतरण तैयार किया है जो विकृत संदर्भ की निम्न-आवृत्ति सूचना को लेटेंट स्पेस में इनपुट की उच्च-आवृत्ति सूचना के साथ मिश्रित करके सामग्री संरक्षण और शैली स्थानांतरण को संतुलित करता है। हमने एक शैली एडाप्टर भी डिज़ाइन किया है जो विकृत संदर्भ से शैली मार्गदर्शन प्रदान करता है। AdaIN-वेवलेट रूपांतरण से प्राप्त शैलीकृत लेटेंट स्पेस का उपयोग करते हुए, हम एक द्वि-सशर्त विसरण मॉडल का उपयोग करके अंतिम परिणाम उत्पन्न करते हैं जो ControlNet को एकीकृत करता है, जो उच्च-आवृत्ति सूचना और शैली मार्गदर्शन को रिकॉर्ड करता है। हम व्यापक प्रयोगों के माध्यम से प्रस्तावित विधि की श्रेष्ठता प्रदर्शित करते हैं। कोड और प्रशिक्षित मॉडल https://github.com/wangxb29/DGPST पर उपलब्ध हैं ।

Takeaways, Limitations

Takeaways:
एक उच्च-गुणवत्ता वाली पोर्ट्रेट शैली रूपांतरण विधि प्रस्तुत करना जो विभिन्न डोमेन के लिए सामान्यीकृत है
अर्थपूर्ण रूप से संरेखित शैली परिवर्तन बाल, आंखें और पलकें जैसे विस्तृत क्षेत्रों तक संभव है
AdaIN-वेवलेट परिवर्तन के माध्यम से सामग्री संरक्षण और शैली परिवर्तन के बीच प्रभावी संतुलन
कंट्रोलनेट-आधारित दोहरे सशर्त प्रसार मॉडल का उपयोग करके उच्च-गुणवत्ता वाली छवि निर्माण
खुले कोड और प्रशिक्षित मॉडल के माध्यम से पुनरुत्पादन और मापनीयता सुनिश्चित करना
Limitations:
विशिष्ट डोमेन या शैली परिवर्तनों के लिए सामान्यीकरण प्रदर्शन में संभावित सीमाएँ
एडाआईएन-वेवलेट ट्रांसफॉर्म और कंट्रोलनेट के पैरामीटर ट्यूनिंग के प्रति संवेदनशीलता
प्रशिक्षण डेटा की गुणवत्ता और विविधता पर निर्भरता
कम्प्यूटेशनल लागत और प्रसंस्करण समय पर विचार किया जाना चाहिए।
👍