Landsat30-AU는 호주 지역의 4개 Landsat 위성(5, 7, 8, 9)으로부터 수집된 30미터 해상도의 이미지를 사용하여 구축된 대규모 비전-언어 데이터셋입니다. 36년 이상의 기간을 포괄하며, 이미지 캡션 쌍 196,262개를 포함하는 Landsat30-AU-Cap과 8개 원격 감지 도메인에 걸쳐 17,725개의 사람이 검증한 시각적 질의응답(VQA) 샘플을 포함하는 Landsat30-AU-VQA의 두 가지 구성 요소로 이루어져 있습니다. 기존의 비전-언어 모델(VLMs)이 저해상도의 장기간 자료를 잘 처리하지 못하는 점을 해결하기 위해 제작되었으며, 일반적인 VLMs를 활용한 부트스트래핑 파이프라인을 통해 품질을 보장합니다. 평가 결과, 기존 VLMs는 위성 이미지 이해에 어려움을 보였으나, Qwen2.5-VL-7B 모델을 Landsat30-AU 데이터셋으로 미세 조정하여 성능 향상을 확인했습니다.