[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मिश्रण-स्कोर प्रशिक्षण: मिश्रण वितरण के स्कोर अनुमान के माध्यम से एक-चरणीय जनरेटिव मॉडल का प्रशिक्षण सरल बनाया गया

Created by
  • Haebom

लेखक

तेजस जयशंकर, जे. जॉन रियू, ग्रेगरी वोर्नेल

रूपरेखा

इस पत्र में, हम स्कोर-ऑफ-मिक्सचर ट्रेनिंग (SMT) का प्रस्ताव रखते हैं, जो एक नए विचलन, जिसे $\alpha$-तिरछा जेन्सन-शैनन विचलन कहा जाता है, को न्यूनतम करके एक-चरणीय जनरेटिव मॉडलों के प्रशिक्षण के लिए एक नवीन ढाँचा है। SMT का उद्देश्य विभिन्न रव स्तरों पर वास्तविक और नकली नमूनों के बीच मिश्रण वितरण के स्कोर का अनुमान लगाना है। संगति मॉडल के समान, हमारा दृष्टिकोण SMT, जिसे शुरू से प्रशिक्षित किया जाता है, और स्कोर-ऑफ-मिक्सचर डिस्टिलेशन (SMD), जो पूर्व-प्रशिक्षित विसरण मॉडल का उपयोग करके आसवन है, दोनों का समर्थन करता है। इसे लागू करना आसान है, इसके लिए न्यूनतम हाइपरपैरामीटर ट्यूनिंग की आवश्यकता होती है, और यह स्थिर प्रशिक्षण की गारंटी देता है। CIFAR-10 और ImageNet 64x64 पर प्रायोगिक परिणाम दर्शाते हैं कि SMT/SMD मौजूदा विधियों के साथ प्रतिस्पर्धी हैं और उनसे बेहतर प्रदर्शन भी करते हैं।

Takeaways, Limitations

Takeaways:
$\Alpha$-तिरछा जेन्सन-शैनन डाइवर्जेंस का उपयोग करते हुए एक नवीन एक-चरणीय जनरेटिव मॉडल लर्निंग फ्रेमवर्क
सरल कार्यान्वयन और न्यूनतम हाइपरपैरामीटर ट्यूनिंग के साथ स्थिर शिक्षण संभव है
ऐसा प्रदर्शन प्राप्त करें जो मौजूदा तरीकों के साथ प्रतिस्पर्धात्मक हो, और कुछ मामलों में उनसे बेहतर भी हो।
स्क्रैच से सीखने (SMT) और पूर्व-प्रशिक्षित प्रसार मॉडल (SMD) के आसवन दोनों का समर्थन करता है
Limitations:
इस शोधपत्र में प्रस्तुत प्रयोगात्मक परिणाम CIFAR-10 और ImageNet 64x64 तक सीमित हैं। अन्य डेटासेट या बड़े इमेज रिज़ॉल्यूशन पर प्रदर्शन मूल्यांकन आवश्यक है।
इस बात का अधिक विस्तृत स्पष्टीकरण आवश्यक है कि हम $\Alpha$-तिरछा जेन्सन-शैनन विचलन क्यों चुनते हैं।
अन्य एक-चरण जनरेटिव मॉडलों के साथ अधिक गहन तुलनात्मक विश्लेषण की आवश्यकता है।
👍