दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

टोकनफ्लो: मल्टीमॉडल समझ और निर्माण के लिए एकीकृत छवि टोकनाइज़र

Created by
  • Haebom

लेखक

लियाओ क्व, हुइचाओ झांग, यिहेंग लियू, जू वांग, यी जियांग, यिमिंग गाओ, हू ये, डैनियल के. डु, ज़ेहुआन युआन, ज़िंगलोंग वू

रूपरेखा

टोकनफ्लो एक नया, एकीकृत इमेज टोकनाइज़र है जो मल्टीमॉडल समझ और निर्माण के बीच लंबे समय से चली आ रही खाई को पाटता है। पिछले शोधों ने एकल पुनर्निर्माण-लक्ष्य वेक्टर क्वांटिज़ेशन (VQ) एनकोडर का उपयोग करके इन दोनों कार्यों को एकीकृत करने का प्रयास किया है। हालाँकि, हमने देखा है कि समझ और निर्माण के लिए दृश्य जानकारी की मौलिक रूप से भिन्न ग्रैन्युलैरिटी की आवश्यकता होती है। यह एक महत्वपूर्ण समझौता प्रस्तुत करता है, जिससे खराब प्रदर्शन होता है, खासकर मल्टीमॉडल समझ कार्यों के लिए। टोकनफ्लो एक अभिनव दोहरे-कोडबुक आर्किटेक्चर के साथ इस चुनौती का समाधान करता है जो एक साझा मैपिंग तंत्र के माध्यम से सिमेंटिक और पिक्सेल-स्तरीय फ़ीचर लर्निंग को अलग करता है जबकि उनका संरेखण बनाए रखता है। यह डिज़ाइन कार्यों को समझने के लिए महत्वपूर्ण उच्च-आयामी सिमेंटिक अभ्यावेदन और एक साझा सूचकांक के माध्यम से निर्माण के लिए आवश्यक सूक्ष्म-कणीय दृश्य फ़ीचर तक सीधी पहुँच प्रदान करता है। व्यापक प्रयोग कई आयामों में टोकनफ्लो की श्रेष्ठता को प्रदर्शित करते हैं। टोकनफ्लो का लाभ उठाते हुए, हमने असतत दृश्य इनपुट के लिए समझ प्रदर्शन में LLaVA-1.5 13B से बेहतर प्रदर्शन किया, जिसमें औसतन 7.2% का सुधार हुआ। छवि पुनर्निर्माण के लिए, हमने 384x384 रिज़ॉल्यूशन पर 0.63 का एक मज़बूत FID स्कोर हासिल किया। इसके अतिरिक्त, TokenFlow ने 256 x 256 रिज़ॉल्यूशन पर 0.55 के GenEval स्कोर के साथ ऑटोरिग्रैसिव छवि निर्माण में अत्याधुनिक प्रदर्शन हासिल किया, जो SDXL के बराबर है।

____T23331_____, Limitations

Takeaways:
मल्टीमॉडल समझ और निर्माण कार्यों के लिए एक एकीकृत छवि टोकनाइज़र के लिए एक नवीन वास्तुकला प्रस्तुत की गई है।
दोहरी कोडबुक वास्तुकला के माध्यम से एक साथ अर्थगत समझ और विस्तृत छवि निर्माण को प्रभावी ढंग से निष्पादित करता है।
असतत दृश्य इनपुट का उपयोग करके पिछले सर्वोत्तम प्रदर्शन वाले मॉडल (LLaVA-1.5 13B) को पार करने वाला समझ प्रदर्शन प्राप्त किया (7.2% सुधार)
उत्कृष्ट छवि पुनर्निर्माण प्रदर्शन (FID 0.63 @ 384 384) और ऑटोरिग्रैसिव छवि निर्माण प्रदर्शन (GenEval 0.55 @ 256 256) प्राप्त किया
Limitations:
इस पेपर में विशिष्ट Limitations या भविष्य के अनुसंधान निर्देशों का अभाव है।
विशिष्ट डेटासेट या हार्डवेयर वातावरण पर निर्भरता के विस्तृत स्पष्टीकरण का अभाव।
👍