Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Landsat30-AU: Bộ dữ liệu ngôn ngữ thị giác cho hình ảnh Landsat của Úc

Created by
  • Haebom

Tác giả

Sai Ma, Trang Lý, John A Taylor

Phác thảo

Để Giải quyết những hạn chế của các mô hình ngôn ngữ thị giác (VLM) cho phép tương tác ngôn ngữ tự nhiên với ảnh vệ tinh, bài báo này trình bày Landsat30-AU, một bộ dữ liệu ngôn ngữ thị giác quy mô lớn dựa trên hơn 36 năm ảnh vệ tinh độ phân giải thấp, dài hạn ở khoảng cách 30 mét được thu thập từ bốn vệ tinh Landsat (5, 7, 8 và 9) trên bầu trời Úc. Landsat30-AU bao gồm hai thành phần: Landsat30-AU-Cap, chứa 196.262 cặp ảnh-chú thích, và Landsat30-AU-VQA, chứa 17.725 mẫu trả lời câu hỏi trực quan (VQA) đã được con người xác minh trên tám miền cảm biến từ xa. Chúng tôi chứng minh rằng các VLM hiện tại gặp khó khăn trong việc hiểu ảnh vệ tinh độ phân giải thấp và thể hiện hiệu suất được cải thiện thông qua tinh chỉnh nhẹ sử dụng Landsat30-AU.

Takeaways, Limitations

Takeaways:
Chúng tôi cung cấp một tập dữ liệu ngôn ngữ thị giác quy mô lớn, Landsat30-AU, chứa dữ liệu đa vệ tinh có độ phân giải thấp, dài hạn, đặt nền tảng để khắc phục những hạn chế của VLM hiện có.
Chúng tôi đã chứng minh bằng thực nghiệm sự thiếu sót của các VLM hiện có trong việc hiểu hình ảnh vệ tinh và đề xuất khả năng cải thiện hiệu suất thông qua việc tinh chỉnh.
Nó mở ra những khả năng mới cho việc quan sát và nghiên cứu phân tích Trái Đất dựa trên hình ảnh vệ tinh có độ phân giải thấp.
Limitations:
Vì tập dữ liệu chỉ giới hạn ở khu vực Úc nên cần xác thực thêm hiệu suất tổng quát hóa toàn cầu.
Hiện nay, khả năng hiểu hình ảnh vệ tinh của VLM vẫn còn hạn chế và cần có các mô hình và kỹ thuật tiên tiến hơn.
Không có mô tả chi tiết về quy trình khởi động được sử dụng trong quá trình tạo tập dữ liệu.
👍