जियोचेन मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल्स (एमएलएलएम) के चरण-दर-चरण भौगोलिक अनुमान के मूल्यांकन हेतु एक बड़े पैमाने का बेंचमार्क है। 1.46 मिलियन मैपिलरी स्ट्रीट-लेवल छवियों का लाभ उठाते हुए, हम प्रत्येक छवि के साथ प्रश्नों का एक 21-चरणीय क्रम (30 मिलियन से अधिक प्रश्नोत्तर जोड़े) जोड़ते हैं। ये क्रम मॉडल को चार अनुमान श्रेणियों: दृश्य, स्थानिक, सांस्कृतिक और सटीक भौगोलिक स्थान निर्धारण में स्थूल-कण विशेषताओं से लेकर सूक्ष्म-कण स्थान निर्धारण तक मार्गदर्शन करते हैं, और कठिनाई स्तर के अनुसार एनोटेट किए जाते हैं। छवियों को सिमेंटिक सेगमेंटेशन (150 वर्ग) और दृश्य स्थान पहचान स्कोर के साथ भी एनोटेट किया जाता है। 2,088 छवियों के विविध उपसमूहों पर अत्याधुनिक एमएलएलएम्स (जीपीटी-4.1 वेरिएंट, क्लाउड 3.7 और जेमिनी 2.5 वेरिएंट) की बेंचमार्किंग से पता चला कि मॉडल लगातार दृश्य प्रमाण, अनियमित अनुमान और सटीक स्थान निर्धारण के साथ संघर्ष करते हैं, खासकर जब अनुमान की जटिलता बढ़ जाती है। जियोचेन एक मजबूत निदान पद्धति प्रदान करता है जो एमएलएलएम के भीतर जटिल भौगोलिक अनुमान में महत्वपूर्ण प्रगति को बढ़ावा देने के लिए महत्वपूर्ण है।