Para abordar las limitaciones de los modelos de visión-lenguaje (VLM) que permiten la interacción del lenguaje natural con imágenes satelitales, este artículo presenta Landsat30-AU, un conjunto de datos de visión-lenguaje a gran escala basado en más de 36 años de imágenes satelitales de baja resolución y larga duración a 30 metros, recopiladas por cuatro satélites Landsat (5, 7, 8 y 9) sobre Australia. Landsat30-AU consta de dos componentes: Landsat30-AU-Cap, que contiene 196.262 pares de imágenes y pies de foto, y Landsat30-AU-VQA, que contiene 17.725 muestras de preguntas y respuestas visuales (VQA) verificadas por humanos en ocho dominios de teledetección. Demostramos que los VLM existentes tienen dificultades para comprender imágenes satelitales de baja resolución y demostramos un rendimiento mejorado mediante un ajuste fino ligero con Landsat30-AU.