उपग्रह चित्रों के साथ प्राकृतिक भाषा की अंतःक्रिया को सक्षम करने वाले दृष्टि-भाषा मॉडल (वीएलएम) की सीमाओं को संबोधित करने के लिए, यह शोधपत्र लैंडसैट30-एयू प्रस्तुत करता है, जो एक बड़े पैमाने का दृष्टि-भाषा डेटासेट है जो ऑस्ट्रेलिया के ऊपर चार लैंडसैट उपग्रहों (5, 7, 8, और 9) से एकत्रित 30 मीटर की दूरी पर 36 वर्षों से अधिक समय तक की दीर्घकालिक, निम्न-रिज़ॉल्यूशन उपग्रह चित्रों पर आधारित है। लैंडसैट30-एयू में दो घटक होते हैं: लैंडसैट30-एयू-कैप, जिसमें 196,262 छवि-कैप्शन युग्म हैं, और लैंडसैट30-एयू-वीक्यूए, जिसमें आठ सुदूर संवेदन डोमेन में 17,725 मानव-सत्यापित दृश्य प्रश्नोत्तर (वीक्यूए) नमूने हैं। हम प्रदर्शित करते हैं कि मौजूदा वीएलएम निम्न-रिज़ॉल्यूशन उपग्रह चित्रों को समझने में कठिनाई महसूस करते हैं और लैंडसैट30-एयू का उपयोग करके हल्के फ़ाइन-ट्यूनिंग के माध्यम से बेहतर प्रदर्शन प्रदर्शित करते हैं।