본 논문은 원격 감지 이미지에 대한 풍부한 다중 모달 데이터셋 구축을 위한 새로운 워크플로우와 그 결과물인 RSTeller 데이터셋을 제시합니다. 기존의 수작업 기반 주석 작업의 어려움을 해결하기 위해, OpenStreetMap (OSM) 데이터와 대규모 언어 모델 (LLM)을 활용하여 Google Earth Engine (GEE)의 원격 감지 이미지에 대한 의미론적으로 풍부한 캡션을 자동 생성하는 방법을 제안합니다. RSTeller 데이터셋은 130만 개 이상의 원격 감지 이미지와 각 이미지에 대한 두 개의 설명 캡션으로 구성되어 있으며, 기존의 비전-언어 모델의 지속적인 사전 훈련을 통해 원격 감지 장면 이해 성능을 향상시키는 데 효과적임을 실험적으로 보여줍니다. 이 연구는 수동 주석 작업의 어려움을 줄이고 고품질 주석 데이터에 대한 접근성을 높여 원격 감지 연구 및 응용 분야의 발전에 기여합니다. 데이터셋은 GitHub에서 공개적으로 이용 가능합니다.