इस शोधपत्र में, हम MVPBench प्रस्तुत करते हैं, जो दृश्य भौतिक तर्क क्षमताओं के मूल्यांकन के लिए एक नया बेंचमार्क है। हम दिखाते हैं कि OpenAI o3 और GPT-4o जैसे अत्याधुनिक मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल (MLLM) दृश्य भौतिक तर्क के साथ संघर्ष करते हैं, विशेष रूप से जटिल दृश्यों में मौलिक भौतिक नियमों, स्थानिक अंतःक्रियाओं और कार्य-कारण को समझने में। MVPBench को कई छवि इनपुट और दृश्य श्रृंखला तर्क (CoT) के माध्यम से चरण-दर-चरण अनुमान प्रक्रिया की आवश्यकता होती है, और यह जांचने के लिए ग्राफ-आधारित CoT संगतता माप का उपयोग करता है कि मॉडल का अनुमान पथ वैध भौतिक तर्क के अनुरूप है या नहीं। प्रायोगिक परिणाम दिखाते हैं कि अत्याधुनिक MLLM भी भौतिक डोमेन में कम दृश्य तर्क सटीकता और कमजोर छवि-से-पाठ संरेखण प्रदर्शित करते हैं, और सुदृढीकरण सीखने-आधारित बाद के प्रशिक्षण संरेखण स्थानिक तर्क को बाधित कर सकते हैं।