Để Giải quyết những hạn chế của các mô hình ngôn ngữ thị giác (VLM) cho phép tương tác ngôn ngữ tự nhiên với ảnh vệ tinh, bài báo này trình bày Landsat30-AU, một bộ dữ liệu ngôn ngữ thị giác quy mô lớn dựa trên hơn 36 năm ảnh vệ tinh độ phân giải thấp, dài hạn ở khoảng cách 30 mét được thu thập từ bốn vệ tinh Landsat (5, 7, 8 và 9) trên bầu trời Úc. Landsat30-AU bao gồm hai thành phần: Landsat30-AU-Cap, chứa 196.262 cặp ảnh-chú thích, và Landsat30-AU-VQA, chứa 17.725 mẫu trả lời câu hỏi trực quan (VQA) đã được con người xác minh trên tám miền cảm biến từ xa. Chúng tôi chứng minh rằng các VLM hiện tại gặp khó khăn trong việc hiểu ảnh vệ tinh độ phân giải thấp và thể hiện hiệu suất được cải thiện thông qua tinh chỉnh nhẹ sử dụng Landsat30-AU.