GeoChain là một chuẩn mực quy mô lớn để đánh giá suy luận địa lý từng bước của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Nó sử dụng 1,46 triệu hình ảnh cấp đường phố Mapillary, mỗi hình ảnh được liên kết với một chuỗi 21 bước các câu hỏi về quy trình tư duy (CoT) (hơn 30 triệu cặp Hỏi & Đáp). Các chuỗi này hướng dẫn mô hình từ định vị thô đến định vị chi tiết trên bốn loại suy luận: hình ảnh, không gian, văn hóa và định vị chính xác, và được chú thích dựa trên độ khó. Hình ảnh cũng được cải tiến với phân đoạn ngữ nghĩa (150 lớp) và điểm định vị trực quan. Việc chuẩn mực hóa các MLLM tiên tiến (các biến thể GPT-4.1, Claude 3.7, Gemini 2.5) trên một tập hợp con đa dạng gồm 2.088 hình ảnh cho thấy các vấn đề nhất quán: các mô hình cho thấy điểm yếu trong các cài đặt dựa trên hình ảnh, thể hiện suy luận không đều và gặp khó khăn trong việc định vị chính xác, đặc biệt là khi độ phức tạp của suy luận tăng lên. GeoChain cung cấp phương pháp chẩn đoán mạnh mẽ, đóng vai trò quan trọng trong việc tạo điều kiện cho những tiến bộ đáng kể trong suy luận địa lý phức tạp trong MLLM.