[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GeoChain: Chuỗi suy nghĩ đa phương thức cho lý luận địa lý

Created by
  • Haebom

Tác giả

Sahiti Yerramilli, Nilay Pande, Rynaa Grover, Jayant Sravan Tamarapalli

Phác thảo

GeoChain là một chuẩn mực quy mô lớn để đánh giá suy luận địa lý từng bước của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Nó sử dụng 1,46 triệu hình ảnh cấp đường phố Mapillary, mỗi hình ảnh được liên kết với một chuỗi 21 bước các câu hỏi về quy trình tư duy (CoT) (hơn 30 triệu cặp Hỏi & Đáp). Các chuỗi này hướng dẫn mô hình từ định vị thô đến định vị chi tiết trên bốn loại suy luận: hình ảnh, không gian, văn hóa và định vị chính xác, và được chú thích dựa trên độ khó. Hình ảnh cũng được cải tiến với phân đoạn ngữ nghĩa (150 lớp) và điểm định vị trực quan. Việc chuẩn mực hóa các MLLM tiên tiến (các biến thể GPT-4.1, Claude 3.7, Gemini 2.5) trên một tập hợp con đa dạng gồm 2.088 hình ảnh cho thấy các vấn đề nhất quán: các mô hình cho thấy điểm yếu trong các cài đặt dựa trên hình ảnh, thể hiện suy luận không đều và gặp khó khăn trong việc định vị chính xác, đặc biệt là khi độ phức tạp của suy luận tăng lên. GeoChain cung cấp phương pháp chẩn đoán mạnh mẽ, đóng vai trò quan trọng trong việc tạo điều kiện cho những tiến bộ đáng kể trong suy luận địa lý phức tạp trong MLLM.

Takeaways, Limitations

Takeaways:
Giới thiệu GeoChain, một chuẩn mực quy mô lớn để đánh giá khả năng suy luận địa lý từng bước của MLLM
Chúng tôi chỉ ra những điểm yếu của MLLM về mặt thiết lập dựa trên hình ảnh, khả năng suy luận và độ chính xác về vị trí.
Cung cấp phương pháp chẩn đoán để cải thiện khả năng suy luận địa lý phức tạp của MLLM
Limitations:
Số lượng hình ảnh được sử dụng để đánh giá chuẩn (2.088) tương đối nhỏ so với toàn bộ tập dữ liệu (1,46 triệu). Cần phải xác minh bằng nhiều dữ liệu hơn.
Các mô hình hiện đang được sử dụng để đánh giá chuẩn mực chỉ giới hạn ở một MLLM cụ thể. Cần đánh giá thêm nhiều mô hình khác nhau.
Thiếu phân tích chuyên sâu về nguyên nhân gây suy giảm hiệu suất do suy luận phức tạp hơn. Cần phân tích bổ sung để đề xuất hướng cải thiện.
👍