本論文は、衛星画像と自然言語の相互作用を可能にするビジョン言語モデル(VLM)の限界を解決するために、オーストラリア地域の4つのLandsat衛星(5、7、8、9)から収集された30メートル解像度の36年以上の長期間、低解像度衛星画像をベースとする大規模ビジョンを提供します。 Landsat30-AUは、196,262個の画像キャプションを含むLandsat30-AU-Capと、8つのリモートセンシングドメインにわたって17,725人が検証したビジュアル質問回答(VQA)サンプルを含むLandsat30-AU-VQAの2つのコンポーネントで構成されています。従来のVLMが低解像度の衛星映像を理解しにくいことを示し、Landsat30-AUを用いた軽量微調整により性能向上を確認した。