यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
रॉकेटसाइंस एक ओपन-सोर्स, कंट्रास्टिव वीएलएम बेंचमार्क है जिसे स्थानिक संबंध समझ का मूल्यांकन करने के लिए डिज़ाइन किया गया है। इसमें नए वास्तविक-विश्व छवि-पाठ युग्म शामिल हैं, जो मुख्य रूप से सापेक्ष स्थानिक समझ और वस्तु क्रम पर केंद्रित हैं। मनुष्यों के लिए आसान लेकिन वर्तमान वीएलएम मॉडलों के लिए चुनौतीपूर्ण होने के लिए डिज़ाइन किया गया, यह प्रयोगात्मक रूप से मान्य है। परिणाम स्थानिक संबंध समझ में ओपन-सोर्स और अत्याधुनिक व्यावसायिक वीएलएम की कमियों को प्रदर्शित करते हैं, साथ ही अनुमान मॉडलों के आश्चर्यजनक रूप से उच्च प्रदर्शन को भी प्रदर्शित करते हैं। इसके अलावा, हमने एक विचार श्रृंखला-आधारित मॉडल में वस्तु स्थानीयकरण और स्थानिक तर्क के योगदान को अलग करने के लिए एक विश्लेषण किया, जिसमें पाया गया कि बेंचमार्क प्रदर्शन स्थानिक तर्क द्वारा सीमित है, न कि वस्तु स्थानीयकरण द्वारा। डेटासेट CC-BY-4.0 लाइसेंस के अंतर्गत जारी किया गया है, और मूल्यांकन कोड https://github.com/nilshoehing/rocketscience पर उपलब्ध है ।
प्रयोगात्मक रूप से प्रदर्शित किया गया कि वर्तमान वीएलएम मॉडल स्थानिक संबंधों को समझने में संघर्ष करते हैं।
◦
हमने पाया कि स्थानिक तर्क क्षमता VLM प्रदर्शन में एक प्रमुख बाधा है।
◦
स्थानिक संबंध समझ का आकलन करने के लिए रॉकेटसाइंस एक नया मानक प्रदान करता है।
◦
अनुमान मॉडल की उच्च स्थानिक अनुमान क्षमता की पुष्टि करना।
◦
खुले डेटासेट और मूल्यांकन कोड प्रदान करके अनुसंधान को सक्षम बनाना।
•
Limitations:
◦
बेंचमार्क केवल विशिष्ट प्रकार के स्थानिक संबंधों को समझने पर ही ध्यान केंद्रित कर सकते हैं तथा सामान्य स्थानिक तर्क क्षमताओं का पूर्णतः आकलन नहीं कर सकते हैं।
◦
यद्यपि यह वर्तमान वीएलएम की सीमाओं को स्पष्ट रूप से प्रदर्शित करता है, फिर भी भविष्य में वीएलएम के विकास के साथ बेंचमार्क की उपयुक्तता की निरंतर समीक्षा की जानी चाहिए।