दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वीएलएम और प्रसार मॉडल में संरचनागत सामान्यीकरण का मूल्यांकन

Created by
  • Haebom

लेखक

बेथ पियर्सन, बिलाल बौलबर्स, माइकल रे, मार्था लुईस

रूपरेखा

यह शोधपत्र प्राकृतिक भाषा अर्थविज्ञान के एक मूलभूत पहलू पर दृष्टि-भाषा मॉडल (VLM) के प्रदर्शन का मूल्यांकन करता है: विद्यमान भागों को मिलाकर नए अर्थ बनाने की क्षमता। हम देखते हैं कि CLIP जैसे VLM, छवियों को "शब्दों के थैले" के रूप में प्रस्तुत करते हैं, जिससे रचनागत अर्थ को पर्याप्त रूप से ग्रहण करने में विफलता होती है। हम जाँच करते हैं कि क्या एक जनरेटिव क्लासिफायर, एक प्रसार मॉडल-आधारित क्लासिफायर, इस सीमा को पार कर सकता है। हम तीन मॉडलों—प्रसार क्लासिफायर, CLIP, और ViLT—की शून्य-शॉट अधिगम (ZSL) और सामान्यीकृत शून्य-शॉट अधिगम (GZSL) परिवेशों में वस्तुओं, विशेषताओं और संबंधों को संयोजित करने की क्षमता का मूल्यांकन करते हैं। हमारे प्रयोगात्मक परिणाम प्रदर्शित करते हैं कि जहाँ प्रसार क्लासिफायर और ViLT अवधारणा संयोजन कार्यों में अच्छा प्रदर्शन करते हैं, वहीं सभी मॉडल संबंधपरक GZSL कार्यों में संघर्ष करते हैं, जो संबंधपरक अनुमान में VLM की चुनौतियों को उजागर करता है। CLIP एम्बेडिंग के विश्लेषण से पता चलता है कि यह कठिनाई "बाएँ" और "दाएँ" जैसी संबंधपरक अवधारणाओं के निरूपण में अत्यधिक समानता के कारण उत्पन्न होती है।

____T228422_____, ____T228423_____

Takeaways: इससे पता चलता है कि प्रसार मॉडल-आधारित क्लासिफायर में पारंपरिक VLM की तुलना में बेहतर विन्यास सामान्यीकरण क्षमता हो सकती है। अवधारणा संबद्धता कार्यों पर प्रसार क्लासिफायर और ViLT का बेहतर प्रदर्शन विशेष रूप से उल्लेखनीय है।
Limitations: यह तथ्य कि सभी मॉडल संबंधपरक GZSL कार्य में काफ़ी संघर्ष करते हैं, VLM की संबंधपरक अनुमान क्षमताओं पर और अधिक शोध की आवश्यकता को दर्शाता है। हालाँकि CLIP एम्बेडिंग विश्लेषण कारण के कुछ सुराग प्रदान करता है, फिर भी और गहन विश्लेषण की आवश्यकता है। संबंधपरक अवधारणा निरूपण में समानता के मुद्दे के अलावा, अन्य कारक भी VLM के खराब संबंधपरक अनुमान प्रदर्शन में योगदान दे सकते हैं।
👍