Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GeoChain: Chuỗi suy nghĩ đa phương thức cho lý luận địa lý

Created by
  • Haebom

Tác giả

Sahiti Yerramilli, Nilay Pande, Rynaa Grover, Jayant Sravan Tamarapalli

Phác thảo

GeoChain là một chuẩn mực quy mô lớn để đánh giá suy luận địa lý từng bước của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Sử dụng 1,46 triệu hình ảnh mặt đường Mapillary, chúng tôi liên kết một chuỗi câu hỏi gồm 21 bước (hơn 30 triệu cặp Hỏi & Đáp) với mỗi hình ảnh. Các chuỗi này hướng dẫn mô hình từ các thuộc tính thô đến nhận dạng vị trí chi tiết trên bốn hạng mục suy luận: hình ảnh, không gian, văn hóa và định vị địa lý chính xác, và được chú thích theo mức độ khó. Hình ảnh cũng được chú thích bằng phân đoạn ngữ nghĩa (150 lớp) và điểm nhận dạng vị trí trực quan. Việc đánh giá chuẩn mực của các MLLM tiên tiến (biến thể GPT-4.1, biến thể Claude 3.7 và biến thể Gemini 2.5) trên các tập hợp con đa dạng gồm 2.088 hình ảnh cho thấy các mô hình luôn gặp khó khăn với bằng chứng trực quan, suy luận bất thường và nhận dạng vị trí chính xác, đặc biệt là khi độ phức tạp của suy luận tăng lên. GeoChain cung cấp một phương pháp chẩn đoán mạnh mẽ, đóng vai trò quan trọng trong việc thúc đẩy những tiến bộ đáng kể trong suy luận địa lý phức tạp trong MLLM.

Takeaways, Limitations

Takeaways:
Chúng tôi giới thiệu GeoChain, một chuẩn mực quy mô lớn được chuẩn hóa để đánh giá khả năng suy luận địa lý của MLLM.
Bộc lộ rõ ​​ràng những hạn chế về cơ sở trực quan, khả năng suy luận và khả năng xác định vị trí chính xác của MLLM.
Cung cấp phương pháp chẩn đoán để phát triển suy luận địa lý trong MLLM.
Limitations:
Tiêu chuẩn đánh giá hiện tại chỉ giới hạn ở một số lượng MLLM và một tập hợp con hình ảnh nhất định.
Cần phân tích sâu hơn để hiểu hiện tượng hiệu suất mô hình giảm sút khi độ phức tạp suy luận tăng lên.
Cần nghiên cứu thêm về khả năng mở rộng và ứng dụng của GeoChain vào nhiều môi trường địa lý khác nhau.
👍