[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

उच्च निष्ठा, उत्पादक प्रसार मॉडल के लिए संरचनागत असतत अव्यक्त कोड

Created by
  • Haebom

लेखक

सैमुअल लावोई, माइकल नोखोविच, आरोन कौरविल

रूपरेखा

यह शोधपत्र तर्क देता है कि प्रसार मॉडलों की सफलता मुख्यतः इनपुट कंडीशनिंग के कारण होती है। तदनुसार, हम प्रसार मॉडलों को कंडीशन करने के लिए प्रयुक्त अभ्यावेदनों की जाँच करते हैं, इस दृष्टिकोण से कि एक आदर्श अभ्यावेदन को नमूना निष्ठा में सुधार करना चाहिए, उत्पन्न करना आसान होना चाहिए, और प्रशिक्षण-से-बाहर नमूनों के निर्माण की अनुमति देने के लिए विन्यास योग्य होना चाहिए। हम स्व-पर्यवेक्षित शिक्षण उद्देश्यों से प्रशिक्षित सरल यौगिक एम्बेडिंग से व्युत्पन्न असतत अव्यक्त कोड (DLC) प्रस्तुत करते हैं। मानक सतत छवि एम्बेडिंग के विपरीत, DLC असतत टोकन अनुक्रम होते हैं। इन्हें उत्पन्न करना आसान है, और इनकी विन्यासशीलता प्रशिक्षण वितरण से परे नई छवियों के नमूने लेने की अनुमति देती है। DLC-प्रशिक्षित प्रसार मॉडल बेहतर उत्पादन निष्ठा प्राप्त करते हैं, और ImageNet पर बिना शर्त छवि निर्माण में एक नई अत्याधुनिक तकनीक स्थापित करते हैं। हम यह भी दर्शाते हैं कि DLC का निर्माण छवि जनरेटरों को वितरण-से-बाहर नमूने उत्पन्न करने में सक्षम बनाता है जो विभिन्न तरीकों से छवियों के अर्थ को लगातार जोड़ते हैं। अंत में, हम प्रदर्शित करते हैं कि कैसे DLC बड़े पूर्व-प्रशिक्षित भाषा मॉडलों का लाभ उठाकर टेक्स्ट-टू-इमेज निर्माण को सक्षम बनाते हैं। हम टेक्स्ट डिफ्यूज़न भाषा मॉडलों को कुशलतापूर्वक परिष्कृत करके ऐसे DLC उत्पन्न करते हैं जो इमेज जनरेटर के प्रशिक्षण वितरण के बाहर नए नमूने उत्पन्न करते हैं।

Takeaways, Limitations

Takeaways:
असतत अव्यक्त कोड (डीएलसी) का उपयोग करके, हम प्रसार मॉडल की जनरेटिव निष्ठा में सुधार करते हैं और इमेजनेट पर नई अत्याधुनिक तकनीक प्राप्त करते हैं।
हम प्रदर्शित करते हैं कि डी.एल.सी. की संयोजनीयता, प्रशिक्षण वितरण से परे नई छवियों के निर्माण और विभिन्न अर्थों वाली छवियों के संयोजन को सक्षम बनाती है।
बड़े पैमाने पर पूर्व-प्रशिक्षित भाषा मॉडल को डीएलसी के साथ संयोजित करने से कुशल टेक्स्ट-टू-इमेज निर्माण संभव हो पाता है।
Limitations:
डीएलसी का प्रदर्शन एक विशिष्ट डेटासेट (इमेजनेट) तक सीमित हो सकता है। अन्य डेटासेट पर सामान्यीकरण प्रदर्शन मूल्यांकन आवश्यक है।
डीएलसी निर्माण प्रक्रिया की कम्प्यूटेशनल लागत और दक्षता पर आगे अनुसंधान की आवश्यकता है।
डी.एल.सी. की विन्यासता की सीमाओं और बाधाओं पर आगे विश्लेषण की आवश्यकता है।
👍