दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बेहतर टेक्स्ट-टू-इमेज निर्माण के लिए इंटरलीविंग तर्क

Created by
  • Haebom

लेखक

वेन्क्सुआन हुआंग, शुआंग चेन, झेयॉन्ग

रूपरेखा

यह शोधपत्र इस बात पर प्रकाश डालता है कि एकीकृत बहुविध समझ और निर्माण मॉडलों की छवि निर्माण क्षमताओं में प्रगति के बावजूद, GPT-4 जैसी समझ और निर्माण को एक-दूसरे से जोड़ने वाली प्रणालियों की तुलना में निर्देशों के अनुसरण और विवरण संरक्षण में अभी भी महत्वपूर्ण अंतर हैं। इसलिए, यह शोधपत्र इस बात पर विचार करता है कि इंटरलीविंग रीजनिंग का लाभ उठाकर टेक्स्ट-टू-इमेज (T2I) निर्माण को कैसे बेहतर बनाया जाए। इसे प्राप्त करने के लिए, हम एक इंटरैक्टिव इंफरेंस जनरेटिव (IRG) ढाँचा प्रस्तावित करते हैं जो टेक्स्ट-आधारित रीजनिंग और छवि संश्लेषण के बीच बारी-बारी से काम करता है। IRG पहले टेक्स्ट-आधारित रीजनिंग उत्पन्न करके प्रारंभिक छवियाँ उत्पन्न करता है, और फिर अर्थ को संरक्षित करते हुए विवरण, दृश्य गुणवत्ता और सौंदर्यबोध को बढ़ाने के लिए परिणामों को प्रतिबिंबित करता है। IRG को प्रभावी ढंग से प्रशिक्षित करने के लिए, हम इंटरैक्टिव इंफरेंस जनरेटिव लर्निंग (IRGL) प्रस्तावित करते हैं, जिसका उद्देश्य प्रारंभिक रीजनिंग और निर्माण चरणों को मज़बूत करना और बाद की छवियों में उच्च-गुणवत्ता वाले टेक्स्ट रिफ्लेक्शन और सटीक कार्यान्वयन सुनिश्चित करना है। IRGL-300K डेटासेट का उपयोग करते हुए, जिसमें छह विघटित शिक्षण मोड शामिल हैं, हम एक एकीकृत आधार मॉडल से शुरुआत करते हैं जो इंटरैक्टिव टेक्स्ट-टू-इमेज आउटपुट उत्पन्न करता है। प्रशिक्षण के दो चरणों के माध्यम से, हम मज़बूत तर्क और प्रतिबिंब क्षमताएँ विकसित करते हैं, और संपूर्ण विचार-से-छवि प्रक्षेप पथ डेटा पर IRG पाइपलाइन को कुशलतापूर्वक ट्यून करते हैं। प्रायोगिक परिणाम GenEval, WISE, TIIF, GenAI-Bench, और OneIG-EN पर 5-10 अंकों की पूर्ण प्रदर्शन वृद्धि, साथ ही दृश्य गुणवत्ता और विवरण निष्ठा में उल्लेखनीय सुधार प्रदर्शित करते हैं। कोड, मॉडल भार और डेटासेट सार्वजनिक किए जाएँगे।

Takeaways, Limitations

Takeaways:
अंतःक्रिया तर्क का उपयोग करते हुए एक नवीन टी2आई पीढ़ी ढांचे (आईआरजी) की प्रस्तुति और इसकी प्रभावशीलता का सत्यापन।
GenEval, WISE, TIIF, GenAI-Bench, और OneIG-EN सहित विभिन्न बेंचमार्क में अत्याधुनिक प्रदर्शन प्राप्त करें।
दृश्य गुणवत्ता और विवरण निष्ठा में सुधार।
आईआरजीएल-300के डेटासेट जारी करके अनुसंधान पुनरुत्पादन और अनुवर्ती अनुसंधान को समर्थन प्रदान करना।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
कुछ विशेष प्रकार की छवियां बनाने के प्रति पूर्वाग्रह हो सकता है।
बड़े पैमाने के डेटासेट को प्रशिक्षित करने के लिए आवश्यक कंप्यूटिंग संसाधनों की मात्रा।
👍