दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

जिगसॉ-पज़ल्स: दृष्टि-भाषा मॉडल में देखने से लेकर समझने और तर्क करने तक

Created by
  • Haebom

लेखक

ज़ेसेन ल्यू, डंडन झांग, वेई ये, फांगडी ली, झिहांग जियांग, याओ यांग

रूपरेखा

यह शोधपत्र जिगसॉ-पज़ल्स प्रस्तुत करता है, जो दृष्टि-भाषा मॉडल (वीएलएम) की स्थानिक तर्क क्षमताओं के मूल्यांकन हेतु एक नया मानक है। जिगसॉ-पज़ल्स में उच्च स्थानिक जटिलता वाली 1,100 वास्तविक दुनिया की छवियाँ शामिल हैं और इसमें स्थानिक बोध, संरचना बोध और तर्क का आकलन करने वाले पाँच कार्य शामिल हैं। 24 अत्याधुनिक वीएलएम के साथ मूल्यांकन करने पर, सर्वोच्च प्रदर्शन करने वाले मॉडल, जेमिनी-2.5-प्रो ने भी केवल 77.14% समग्र सटीकता प्राप्त की, और विशेष रूप से, अनुक्रम निर्माण कार्य में केवल 30% सटीकता, जो मानव प्रतिभागियों के 90% से अधिक प्रदर्शन से काफी कम है। यह वीएलएम की स्थानिक तर्क क्षमताओं में सुधार के लिए निरंतर शोध की आवश्यकता को रेखांकित करता है।

Takeaways, Limitations

Takeaways:
वीएलएम की स्थानिक तर्क क्षमताओं का वस्तुनिष्ठ मूल्यांकन करने के लिए एक नया बेंचमार्क (जिग्सॉ-पज़ल्स) प्रस्तुत किया गया है।
अत्याधुनिक वीएलएम की स्थानिक तर्क क्षमताओं की सीमाओं को स्पष्ट रूप से प्रदर्शित करना।
वीएलएम में स्थानिक तर्क अनुसंधान के लिए दिशा-निर्देश सुझाना (विशेष रूप से अनुक्रम निर्माण कार्यों में प्रदर्शन में सुधार की आवश्यकता)
Limitations:
जिगसॉ-पज़ल्स डेटासेट का आकार अपेक्षाकृत छोटा हो सकता है।
मूल्यांकन कार्यों के प्रकार सीमित हो सकते हैं।
यह वास्तविक दुनिया में विभिन्न स्थानिक स्थितियों को पूरी तरह से प्रतिबिंबित नहीं कर सकता है।
👍