दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विविध कैप्शनिंग के लिए छवि एम्बेडिंग नमूनाकरण विधि

Created by
  • Haebom

लेखक

सानिया वहीद, ना मिन अन

रूपरेखा

यह शोधपत्र एक नवीन ढाँचा प्रस्तुत करता है जो कम्प्यूटेशनल रूप से महंगे अत्याधुनिक विज़न-लैंग्वेज मॉडल (VLM) के बजाय अपेक्षाकृत छोटे VLM (जैसे, BLIP) का उपयोग करके इमेज कैप्शन निर्माण के प्रदर्शन को बेहतर बनाता है। इस समस्या का समाधान करने के लिए कि मौजूदा छोटे VLM उच्च-आयामी दृश्य विवरणों पर ध्यान केंद्रित करते हैं और विवरणों को अनदेखा कर देते हैं, हम संरचित विभाजन का लाभ उठाकर पदानुक्रमित निरूपण उत्पन्न करते हैं जो वैश्विक और स्थानीय दोनों अर्थ संबंधी जानकारी को समाहित करते हैं। हम बिना किसी अतिरिक्त मॉडल प्रशिक्षण के बड़े मॉडलों के बराबर इमेज-कैप्शन संगति, अर्थ संबंधी अखंडता और विविधता प्राप्त करते हैं। MSCOCO, Flickr30k, और Nocaps डेटासेट पर मूल्यांकन से क्रमशः 0.735, 0.750, और 0.748 के Div-2 स्कोर प्राप्त हुए, जो मानव-जनित कैप्शन के साथ उच्च प्रासंगिकता और अर्थ संबंधी अखंडता को प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
हम यह प्रदर्शित करते हैं कि उच्च-प्रदर्शन छवि कैप्शन निर्माण सीमित कम्प्यूटेशनल संसाधनों (जैसे, मोबाइल डिवाइस, सहायक प्रौद्योगिकियां) वाले वातावरण में भी संभव है।
हम अतिरिक्त मॉडल प्रशिक्षण के बिना छोटे वीएलएम के प्रदर्शन में उल्लेखनीय सुधार करने के लिए एक कुशल विधि प्रस्तुत करते हैं।
हम प्रदर्शित करते हैं कि संरचनात्मक विभाजन का उपयोग करने वाली एक पदानुक्रमित प्रतिनिधित्व पीढ़ी तकनीक छवि कैप्शन की विविधता और सूचनात्मकता को बढ़ाने में प्रभावी है।
Limitations:
प्रस्तावित ढाँचा किसी विशिष्ट लघु वीएलएम (बीएलआईपी) पर निर्भर हो सकता है। अन्य लघु वीएलएम के लिए सामान्यीकरण प्रदर्शन हेतु और अधिक शोध की आवश्यकता है।
संरचनात्मक विभाजन की सटीकता अंतिम कैप्शन की गुणवत्ता को प्रभावित कर सकती है। विभाजन प्रदर्शन में सुधार भविष्य में प्रदर्शन में सुधार लाने में सहायक हो सकता है।
इस पेपर में प्रयुक्त डिव-2 स्कोर के अतिरिक्त, अन्य मूल्यांकन मेट्रिक्स को जोड़कर एक बहुआयामी प्रदर्शन विश्लेषण की आवश्यकता हो सकती है।
👍