본 논문은 위성 영상과 자연어 상호작용을 가능하게 하는 비전-언어 모델(VLMs)의 한계를 해결하기 위해, 호주 지역의 4개 Landsat 위성(5, 7, 8, 9)으로부터 수집된 30미터 해상도의 36년 이상의 장기간, 저해상도 위성 영상을 기반으로 하는 대규모 비전-언어 데이터셋 Landsat30-AU를 제시합니다. Landsat30-AU는 이미지-캡션 쌍 196,262개를 포함하는 Landsat30-AU-Cap과 8개의 원격 감지 도메인에 걸쳐 17,725개의 사람이 검증한 시각적 질문 답변(VQA) 샘플을 포함하는 Landsat30-AU-VQA의 두 가지 구성 요소로 이루어져 있습니다. 기존의 VLMs가 저해상도 위성 영상 이해에 어려움을 겪는다는 것을 보여주고, Landsat30-AU를 사용한 경량 미세 조정을 통해 성능 향상을 확인했습니다.