दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

देखना तर्क नहीं है: बहु-पथ दृश्य भौतिक CoT के ग्राफ-आधारित मूल्यांकन के लिए MVPBench

Created by
  • Haebom

लेखक

झुओबाई डोंग, जुनचाओ यी, ज़ियुआन झेंग, हाओचेन हान, जियांग्शी झेंग, एलेक्स जिनपेंग वांग, फैंगमिंग लियू, लिन्जी ली

रूपरेखा

इस शोधपत्र में, हम MVPBench प्रस्तुत करते हैं, जो दृश्य भौतिक तर्क क्षमताओं के मूल्यांकन के लिए एक नया बेंचमार्क है। हम दिखाते हैं कि OpenAI o3 और GPT-4o जैसे अत्याधुनिक मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल (MLLM) दृश्य भौतिक तर्क के साथ संघर्ष करते हैं, विशेष रूप से जटिल दृश्यों में मौलिक भौतिक नियमों, स्थानिक अंतःक्रियाओं और कार्य-कारण को समझने में। MVPBench को कई छवि इनपुट और दृश्य श्रृंखला तर्क (CoT) के माध्यम से चरण-दर-चरण अनुमान प्रक्रिया की आवश्यकता होती है, और यह जांचने के लिए ग्राफ-आधारित CoT संगतता माप का उपयोग करता है कि मॉडल का अनुमान पथ वैध भौतिक तर्क के अनुरूप है या नहीं। प्रायोगिक परिणाम दिखाते हैं कि अत्याधुनिक MLLM भी भौतिक डोमेन में कम दृश्य तर्क सटीकता और कमजोर छवि-से-पाठ संरेखण प्रदर्शित करते हैं, और सुदृढीकरण सीखने-आधारित बाद के प्रशिक्षण संरेखण स्थानिक तर्क को बाधित कर सकते हैं।

Takeaways, Limitations

Takeaways:
हम एक नया बेंचमार्क, एमवीपीबेंच प्रस्तुत करते हैं, जो अत्याधुनिक एमएलएलएम में दृश्य भौतिक तर्क क्षमताओं की कमी को स्पष्ट रूप से प्रदर्शित करता है।
हम एक नवीन मूल्यांकन पद्धति प्रस्तुत करते हैं जो बहु-चरणीय तर्क प्रक्रियाओं का मूल्यांकन करने के लिए दृश्य विचार श्रृंखला (सीओटी) का उपयोग करती है तथा ग्राफ-आधारित उपायों के साथ तर्क की संगति को मान्य करती है।
आम धारणा के विपरीत कि सुदृढीकरण सीखने पर आधारित फाइन-ट्यूनिंग दृश्य तर्क प्रदर्शन में सुधार करती है, हम दिखाते हैं कि यह स्थानिक तर्क में बाधा डाल सकती है, जिसके लिए मौजूदा फाइन-ट्यूनिंग दृष्टिकोणों पर पुनर्विचार करने की आवश्यकता है।
Limitations:
एमवीपीबेंच के दायरे और सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
प्रस्तावित ग्राफ-आधारित CoT संगतता माप दृष्टिकोण की सीमाओं और सुधार की गुंजाइश पर चर्चा का अभाव है।
विभिन्न प्रकार के एम.एल.एल.एम. और फाइन-ट्यूनिंग तकनीकों पर व्यापक प्रयोगों का अभाव हो सकता है।
👍