दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

स्थिर प्रसार का उपयोग करके केल्विन और हॉब्स कॉमिक्स में शैली स्थानांतरण

Created by
  • Haebom

लेखक

अश्विन कुमार वेंकटरमणन, स्लोके श्रेष्ठ, सुंदर श्रीपाद वेणुगोपालस्वामी श्रीरामन

रूपरेखा

यह परियोजना रिपोर्ट कैल्विन और हॉब्स कॉमिक्स डेटासेट का उपयोग करके स्थिर प्रसार मॉडल को फ़ाइन-ट्यून करने की प्रक्रिया का सारांश प्रस्तुत करती है। इसका लक्ष्य शैली स्थानांतरण करना है, एक मनमाना इनपुट चित्र को कैल्विन और हॉब्स कॉमिक्स शैली में रूपांतरित करना है। कुशल फ़ाइन-ट्यूनिंग के लिए, हमने लो रैंक अडेप्टेशन (LoRA) का उपयोग करके स्थिर-प्रसार-v1.5 को प्रशिक्षित किया है, और प्रसार प्रक्रिया को U-net में एक वैरिएशनल ऑटोएनकोडर (VAE) द्वारा नियंत्रित किया जाता है। प्रशिक्षण समय और इनपुट डेटा की गुणवत्ता को ध्यान में रखते हुए, परिणाम देखने में आकर्षक हैं।

Takeaways, Limitations

Takeaways: हम LoRA का उपयोग करके एक स्थिर प्रसार मॉडल के लिए एक कुशल फ़ाइन-ट्यूनिंग विधि प्रस्तुत करते हैं, जो दर्शाती है कि यह सीमित डेटासेट और प्रशिक्षण समय के साथ भी अच्छे स्टाइल ट्रांसफ़र परिणाम प्राप्त कर सकता है। हम विशिष्ट स्टाइल ट्रांसफ़र, जैसे कि केल्विन और हॉब्स कॉमिक बुक शैली, के लिए एक व्यावहारिक दृष्टिकोण भी प्रस्तुत करते हैं।
Limitations: उपयोग किए गए डेटासेट के आकार और गुणवत्ता का विस्तृत विवरण अपर्याप्त है। चूँकि वस्तुनिष्ठ प्रदर्शन मूल्यांकन मापदंड प्रदान नहीं किए गए हैं, इसलिए परिणाम केवल गुणात्मक आकलन पर आधारित हैं। विभिन्न शैलियों की छवियों पर सामान्यीकरण प्रदर्शन का सत्यापन अपर्याप्त है। रिपोर्ट की प्रकृति के कारण, विस्तृत तकनीकी विवरण और प्रयोगात्मक सेटअप की जानकारी सीमित है।
👍