दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रैंडएआर: यादृच्छिक क्रम में केवल डिकोडर-स्वतःप्रगामी दृश्य निर्माण

Created by
  • Haebom

लेखक

ज़िकी पैंग, तियानयुआन झांग, फुजुन लुआन, युंज़े मैन, हाओ टैन, काई झांग, विलियम टी. फ्रीमैन, यू-जिओंग वांग

रूपरेखा

RandAR एक डिकोडर-ओनली विज़ुअल ऑटोरिग्रैसिव (AR) मॉडल है जो मनमाने टोकन क्रम के साथ चित्र उत्पन्न कर सकता है। जहाँ मौजूदा डिकोडर-ओनली AR मॉडल पूर्वनिर्धारित निर्माण क्रम पर निर्भर करते हैं, वहीं RandAR इस प्रेरक पूर्वाग्रह को दूर करता है और डिकोडर-ओनली निर्माण में नवीन क्षमताएँ प्रदान करता है। इसका मुख्य डिज़ाइन एक "स्थिति-सूचक टोकन" सम्मिलित करके मनमाना क्रम सक्षम करता है जो अगले चित्र टोकन के पूर्वानुमान से पहले स्थानिक स्थिति को इंगित करता है। यादृच्छिक रूप से क्रमचयित टोकन अनुक्रमों (निश्चित-क्रम निर्माण की तुलना में अधिक कठिन कार्य) के साथ प्रशिक्षित RandAR, मौजूदा रेखापुंज-क्रम मॉडलों के तुलनीय प्रदर्शन प्राप्त करता है। इससे भी महत्वपूर्ण बात यह है कि यादृच्छिक क्रम के साथ प्रशिक्षित डिकोडर-ओनली ट्रांसफ़ॉर्मर नवीन क्षमताएँ प्राप्त करते हैं। AR मॉडलों की दक्षता संबंधी अड़चन को दूर करने के लिए, RandAR अनुमान समय पर KV-कैश के साथ समानांतर डिकोडिंग को अपनाता है, जिससे निर्माण गुणवत्ता से समझौता किए बिना 2.5 गुना गति प्राप्त होती है। RandAR शून्य-शॉट तरीके से इनपेंटिंग, आउटपेंटिंग और रिज़ॉल्यूशन एक्सट्रपलेशन का भी समर्थन करता है।

Takeaways, Limitations

Takeaways:
हम केवल डिकोडर-आधारित दृश्य जनरेटिव मॉडल के लिए एक नई दिशा प्रस्तुत करते हैं।
यह किसी भी टोकन क्रम में छवि निर्माण को सक्षम करके मौजूदा मॉडलों की सीमाओं पर काबू पा लेता है।
समानांतर डिकोडिंग के माध्यम से अनुमान की गति में 2.5 गुना सुधार हुआ।
शून्य-शॉट तरीके से इनपेंटिंग, आउटपेंटिंग और रिज़ॉल्यूशन एक्सट्रपलेशन का समर्थन करता है।
Limitations:
इस शोधपत्र में विशिष्ट Limitations का स्पष्ट रूप से उल्लेख नहीं किया गया है। RandAR की प्रदर्शन सीमाओं और विशिष्ट छवि प्रकारों के प्रति इसकी भेद्यता को उजागर करने के लिए अतिरिक्त प्रयोगों और विश्लेषणों की आवश्यकता है।
यादृच्छिक क्रम निर्माण के लाभों को स्पष्ट रूप से प्रस्तुत करने तथा मौजूदा निश्चित क्रम मॉडलों की तुलना में इसके व्यावहारिक लाभों का अधिक विशिष्ट रूप से विश्लेषण करने की आवश्यकता है।
👍