GeoChain là một chuẩn mực quy mô lớn để đánh giá suy luận địa lý từng bước của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Sử dụng 1,46 triệu hình ảnh mặt đường Mapillary, chúng tôi liên kết một chuỗi câu hỏi gồm 21 bước (hơn 30 triệu cặp Hỏi & Đáp) với mỗi hình ảnh. Các chuỗi này hướng dẫn mô hình từ các thuộc tính thô đến nhận dạng vị trí chi tiết trên bốn hạng mục suy luận: hình ảnh, không gian, văn hóa và định vị địa lý chính xác, và được chú thích theo mức độ khó. Hình ảnh cũng được chú thích bằng phân đoạn ngữ nghĩa (150 lớp) và điểm nhận dạng vị trí trực quan. Việc đánh giá chuẩn mực của các MLLM tiên tiến (biến thể GPT-4.1, biến thể Claude 3.7 và biến thể Gemini 2.5) trên các tập hợp con đa dạng gồm 2.088 hình ảnh cho thấy các mô hình luôn gặp khó khăn với bằng chứng trực quan, suy luận bất thường và nhận dạng vị trí chính xác, đặc biệt là khi độ phức tạp của suy luận tăng lên. GeoChain cung cấp một phương pháp chẩn đoán mạnh mẽ, đóng vai trò quan trọng trong việc thúc đẩy những tiến bộ đáng kể trong suy luận địa lý phức tạp trong MLLM.