यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र X-प्रॉम्प्ट प्रस्तुत करता है, जो एक स्वतःप्रत्यागामी दृष्टि-भाषा मॉडल (VLM) है जो बड़े पैमाने के भाषा मॉडल (LLM) की क्षमताओं का लाभ उठाता है। X-प्रॉम्प्ट को एक संदर्भ-आधारित शिक्षण ढाँचे के माध्यम से, मौजूदा और अज्ञात कार्यों सहित, विभिन्न प्रकार के छवि निर्माण कार्यों पर प्रतिस्पर्धी प्रदर्शन प्रदान करने के लिए डिज़ाइन किया गया है। विशेष रूप से, यह लंबे संदर्भगत टोकन अनुक्रमों का समर्थन करता है और एक विशेष डिज़ाइन के माध्यम से अज्ञात कार्यों के सामान्यीकरण को बेहतर बनाता है जो संदर्भ-आधारित उदाहरणों से महत्वपूर्ण विशेषताओं को कुशलतापूर्वक संपीड़ित करता है। इसके बाद, यह पाठ और छवि पूर्वानुमान के लिए एक एकीकृत शिक्षण दृष्टिकोण के माध्यम से संदर्भ-आधारित उदाहरणों से बेहतर कार्य पहचान के साथ सामान्य छवि निर्माण को संभालता है। हम व्यापक प्रयोगों के माध्यम से विभिन्न मौजूदा छवि निर्माण कार्यों पर इसके प्रदर्शन और अज्ञात कार्यों के सामान्यीकरण को सत्यापित करते हैं।
Takeaways, Limitations
•
Takeaways:
◦
हम संदर्भ-आधारित शिक्षण का लाभ उठाते हुए सामान्य छवि निर्माण कार्य के लिए एक नवीन दृष्टिकोण प्रस्तुत करते हैं।
◦
X-प्रॉम्प्ट ज्ञात और अज्ञात दोनों कार्यों पर प्रतिस्पर्धी प्रदर्शन प्रदर्शित करता है।
◦
लंबे संदर्भ टोकन अनुक्रमों को संभालें और कुशल फीचर संपीड़न के माध्यम से सामान्यीकरण क्षमता में सुधार करें।
◦
एकीकृत शिक्षण दृष्टिकोण के माध्यम से बेहतर कार्य पहचान प्रदान करता है।
•
Limitations:
◦
पेपर में Limitations का विशेष रूप से उल्लेख नहीं किया गया है। मॉडल के प्रदर्शन और सीमाओं को बेहतर ढंग से समझने के लिए और प्रयोगों और विश्लेषणों की आवश्यकता है। उदाहरण के लिए, अन्य VLM मॉडलों के साथ एक अधिक विस्तृत तुलनात्मक विश्लेषण आवश्यक है। इसके अलावा, कुछ प्रकार के छवि निर्माण कार्यों के लिए संभावित प्रदर्शन गिरावट के बारे में चर्चा का अभाव है।