दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

X-प्रॉम्प्ट: ऑटो-रिग्रैसिव विज़न लैंग्वेज फाउंडेशन मॉडल में सार्वभौमिक इन-कॉन्टेक्स्ट इमेज जेनरेशन की ओर

Created by
  • Haebom

लेखक

ज़ेई सन, ज़ियांग चू, पैन झांग, टोंग वू, ज़ियाओयी डोंग, युहांग ज़ैंग, युआनजुन ज़िओंग, दहुआ लिन, जियाकी वांग

रूपरेखा

यह शोधपत्र X-प्रॉम्प्ट प्रस्तुत करता है, जो एक स्वतःप्रत्यागामी दृष्टि-भाषा मॉडल (VLM) है जो बड़े पैमाने के भाषा मॉडल (LLM) की क्षमताओं का लाभ उठाता है। X-प्रॉम्प्ट को एक संदर्भ-आधारित शिक्षण ढाँचे के माध्यम से, मौजूदा और अज्ञात कार्यों सहित, विभिन्न प्रकार के छवि निर्माण कार्यों पर प्रतिस्पर्धी प्रदर्शन प्रदान करने के लिए डिज़ाइन किया गया है। विशेष रूप से, यह लंबे संदर्भगत टोकन अनुक्रमों का समर्थन करता है और एक विशेष डिज़ाइन के माध्यम से अज्ञात कार्यों के सामान्यीकरण को बेहतर बनाता है जो संदर्भ-आधारित उदाहरणों से महत्वपूर्ण विशेषताओं को कुशलतापूर्वक संपीड़ित करता है। इसके बाद, यह पाठ और छवि पूर्वानुमान के लिए एक एकीकृत शिक्षण दृष्टिकोण के माध्यम से संदर्भ-आधारित उदाहरणों से बेहतर कार्य पहचान के साथ सामान्य छवि निर्माण को संभालता है। हम व्यापक प्रयोगों के माध्यम से विभिन्न मौजूदा छवि निर्माण कार्यों पर इसके प्रदर्शन और अज्ञात कार्यों के सामान्यीकरण को सत्यापित करते हैं।

Takeaways, Limitations

Takeaways:
हम संदर्भ-आधारित शिक्षण का लाभ उठाते हुए सामान्य छवि निर्माण कार्य के लिए एक नवीन दृष्टिकोण प्रस्तुत करते हैं।
X-प्रॉम्प्ट ज्ञात और अज्ञात दोनों कार्यों पर प्रतिस्पर्धी प्रदर्शन प्रदर्शित करता है।
लंबे संदर्भ टोकन अनुक्रमों को संभालें और कुशल फीचर संपीड़न के माध्यम से सामान्यीकरण क्षमता में सुधार करें।
एकीकृत शिक्षण दृष्टिकोण के माध्यम से बेहतर कार्य पहचान प्रदान करता है।
Limitations:
पेपर में Limitations का विशेष रूप से उल्लेख नहीं किया गया है। मॉडल के प्रदर्शन और सीमाओं को बेहतर ढंग से समझने के लिए और प्रयोगों और विश्लेषणों की आवश्यकता है। उदाहरण के लिए, अन्य VLM मॉडलों के साथ एक अधिक विस्तृत तुलनात्मक विश्लेषण आवश्यक है। इसके अलावा, कुछ प्रकार के छवि निर्माण कार्यों के लिए संभावित प्रदर्शन गिरावट के बारे में चर्चा का अभाव है।
👍