दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

हिता: ऑटोरिग्रैसिव इमेज जेनरेशन के लिए समग्र टोकनाइज़र

Created by
  • Haebom

लेखक

एनलिन झेंग, हाओचेन वांग, युचेंग झाओ, वेइपेंग डेंग, तियानकै वांग, जियानग्यू झांग, ज़ियाओजुआन क्यूई

रूपरेखा

हिता एक नया इमेज टोकनाइज़र है जिसे मौजूदा ऑटोरिग्रैसिव इमेज जेनरेशन मॉडल्स की सीमाओं को दूर करने के लिए प्रस्तावित किया गया है। मौजूदा मॉडल्स को टोकन्स को क्रमिक रूप से जनरेट करते समय ग्लोबल रिलेशनशिप्स को कैप्चर करने में कठिनाई होती है, और इसमें समस्या यह है कि वे स्थानीय पैच जानकारी पर निर्भर करते हैं और इस प्रकार ग्लोबल जानकारी का सीमित उपयोग करते हैं। हिता एक सीखने योग्य ग्लोबल क्वेरी और एक ग्लोबल-लोकल टोकनाइज़ेशन विधि, जो स्थानीय पैच टोकन्स का उपयोग करती है, को प्रस्तुत करके इन समस्याओं का समाधान करता है। यह एक अनुक्रमिक संरचना का उपयोग करता है जो पहले ग्लोबल टोकन्स और फिर पैच टोकन्स को रखता है, और पिछले टोकन्स के बारे में जागरूकता बनाए रखने के लिए कारणात्मक ध्यान, और सूचना प्रवाह को नियंत्रित करने और ग्लोबल टोकन्स की प्राथमिकता बढ़ाने के लिए एक हल्का फ़्यूज़न मॉड्यूल का उपयोग करता है। इसने इमेजनेट बेंचमार्क पर FID 2.59 और IS 281.9 प्राप्त किया, जो मौजूदा टोकनाइज़र्स की तुलना में बेहतर प्रदर्शन दर्शाता है, और प्रशिक्षण गति में भी सुधार करता है। इसने ज़ीरो-शॉट स्टाइल ट्रांसफर और इमेज इनपेंटिंग में भी प्रभावशीलता दिखाई।

Takeaways, Limitations

Takeaways:
ऑटोरिग्रैसिव इमेज जेनरेशन मॉडल का प्रदर्शन सुधार: इमेजनेट पर SOTA प्रदर्शन प्राप्त करना (FID 2.59, IS 281.9)।
प्रशिक्षण की गति में वृद्धि.
वैश्विक छवि विशेषताओं (बनावट, सामग्री, आकार) को कैप्चर करने की बेहतर क्षमता।
शून्य-शॉट शैली स्थानांतरण और छवि इनपेंटिंग में प्रभावी उपयोग।
वैश्विक-स्थानीय टोकनाइज़र को डिज़ाइन करने के लिए एक नया दृष्टिकोण प्रस्तुत किया गया है।
Limitations:
इस शोधपत्र में हिता के Limitations का स्पष्ट उल्लेख नहीं है। भविष्य में शोध के माध्यम से इसमें और सुधार की गुंजाइश हो सकती है।
विशिष्ट हार्डवेयर वातावरण के लिए निर्भरता या मापनीयता के बारे में जानकारी का अभाव।
👍