GeoChain est un benchmark à grande échelle permettant d'évaluer l'inférence géographique étape par étape de modèles linguistiques multimodaux à grande échelle (MLLM). Il utilise 1,46 million d'images Mapillary au niveau de la rue, chacune associée à une séquence de 21 étapes de questions de processus de pensée (CoT) (plus de 30 millions de paires de questions-réponses). Ces séquences guident le modèle d'une localisation grossière à une localisation fine à travers quatre catégories d'inférence : visuelle, spatiale, culturelle et géolocalisation précise, et sont annotées en fonction de la difficulté. Les images sont également enrichies d'une segmentation sémantique (150 classes) et de scores de localisation visuelle. L'analyse comparative de MLLM de pointe (variantes GPT-4.1, Claude 3.7, Gemini 2.5) sur un sous-ensemble diversifié de 2 088 images révèle des problèmes récurrents : les modèles présentent des faiblesses dans les paramètres visuels, une inférence irrégulière et des difficultés de localisation précise, notamment lorsque la complexité de l'inférence augmente. GeoChain fournit une méthodologie de diagnostic robuste qui est essentielle pour faciliter des avancées significatives dans l'inférence géographique complexe au sein des MLLM.