हमारा लक्ष्य एक सामान्यीकृत स्टीरियो मिलान मॉडल विकसित करना है जो रिज़ॉल्यूशन और असमानता की एक विस्तृत श्रृंखला पर डेटासेट-विशिष्ट फ़ाइन-ट्यूनिंग के बिना प्रदर्शन कर सके। मौजूदा पुनरावृत्त स्थानीय खोज दृष्टिकोण सीमित बेंचमार्क पर उच्च स्कोर प्राप्त करते हैं, लेकिन वैश्विक संगति का अभाव रखते हैं, जिससे सामान्यीकरण सीमित होता है। दूसरी ओर, वैश्विक मिलान आर्किटेक्चर सैद्धांतिक रूप से अधिक शक्तिशाली हैं, लेकिन उनकी उच्च कम्प्यूटेशनल लागत और मेमोरी आवश्यकताएँ उन्हें अव्यावहारिक बनाती हैं। इस पत्र में, हम $S^2M^2$ नामक एक नवीन वैश्विक मिलान आर्किटेक्चर प्रस्तुत करते हैं, जो लागत-मात्रा फ़िल्टरिंग या गहन संवर्द्धन स्टैक पर निर्भर किए बिना अत्याधुनिक सटीकता और उच्च दक्षता दोनों प्राप्त करता है। यह मज़बूत लंबी-दूरी प्रतिक्रिया के लिए एक बहु-रिज़ॉल्यूशन ट्रांसफ़ॉर्मर और एक नवीन हानि फ़ंक्शन को एकीकृत करता है जो असमानता, अवरोधन और विश्वास का अधिक मज़बूती से संयुक्त रूप से अनुमान लगाने के लिए संभाव्य मिलान पर संभाव्यता को केंद्रित करता है। यह मिडिलबरी v3 और ETH3D बेंचमार्क पर अत्याधुनिक प्रदर्शन प्राप्त करता है, प्रतिस्पर्धी दक्षता के साथ उच्च-गुणवत्ता वाले विवरणों का पुनर्निर्माण करता है।