यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
RandAR एक डिकोडर-ओनली विज़ुअल ऑटोरिग्रैसिव (AR) मॉडल है जो मनमाने टोकन क्रम के साथ चित्र उत्पन्न कर सकता है। जहाँ मौजूदा डिकोडर-ओनली AR मॉडल पूर्वनिर्धारित निर्माण क्रम पर निर्भर करते हैं, वहीं RandAR इस प्रेरक पूर्वाग्रह को दूर करता है और डिकोडर-ओनली निर्माण में नवीन क्षमताएँ प्रदान करता है। इसका मुख्य डिज़ाइन एक "स्थिति-सूचक टोकन" सम्मिलित करके मनमाना क्रम सक्षम करता है जो अगले चित्र टोकन के पूर्वानुमान से पहले स्थानिक स्थिति को इंगित करता है। यादृच्छिक रूप से क्रमचयित टोकन अनुक्रमों (निश्चित-क्रम निर्माण की तुलना में अधिक कठिन कार्य) के साथ प्रशिक्षित RandAR, मौजूदा रेखापुंज-क्रम मॉडलों के तुलनीय प्रदर्शन प्राप्त करता है। इससे भी महत्वपूर्ण बात यह है कि यादृच्छिक क्रम के साथ प्रशिक्षित डिकोडर-ओनली ट्रांसफ़ॉर्मर नवीन क्षमताएँ प्राप्त करते हैं। AR मॉडलों की दक्षता संबंधी अड़चन को दूर करने के लिए, RandAR अनुमान समय पर KV-कैश के साथ समानांतर डिकोडिंग को अपनाता है, जिससे निर्माण गुणवत्ता से समझौता किए बिना 2.5 गुना गति प्राप्त होती है। RandAR शून्य-शॉट तरीके से इनपेंटिंग, आउटपेंटिंग और रिज़ॉल्यूशन एक्सट्रपलेशन का भी समर्थन करता है।
Takeaways, Limitations
•
Takeaways:
◦
हम केवल डिकोडर-आधारित दृश्य जनरेटिव मॉडल के लिए एक नई दिशा प्रस्तुत करते हैं।
◦
यह किसी भी टोकन क्रम में छवि निर्माण को सक्षम करके मौजूदा मॉडलों की सीमाओं पर काबू पा लेता है।
◦
समानांतर डिकोडिंग के माध्यम से अनुमान की गति में 2.5 गुना सुधार हुआ।
◦
शून्य-शॉट तरीके से इनपेंटिंग, आउटपेंटिंग और रिज़ॉल्यूशन एक्सट्रपलेशन का समर्थन करता है।
•
Limitations:
◦
इस शोधपत्र में विशिष्ट Limitations का स्पष्ट रूप से उल्लेख नहीं किया गया है। RandAR की प्रदर्शन सीमाओं और विशिष्ट छवि प्रकारों के प्रति इसकी भेद्यता को उजागर करने के लिए अतिरिक्त प्रयोगों और विश्लेषणों की आवश्यकता है।
◦
यादृच्छिक क्रम निर्माण के लाभों को स्पष्ट रूप से प्रस्तुत करने तथा मौजूदा निश्चित क्रम मॉडलों की तुलना में इसके व्यावहारिक लाभों का अधिक विशिष्ट रूप से विश्लेषण करने की आवश्यकता है।