본 논문은 원격 감지(RS) 분야에서 비전-언어 모델(VLMs)의 응용에 대한 포괄적인 개요를 제공합니다. 기존의 장면 분류, 객체 탐지, 이미지 캡션 생성과 같은 작업에서 VLMs의 잠재력을 보여주지만, 복잡한 지시사항이나 픽셀 단위 작업(예: 분할, 변화 감지)에는 어려움을 겪는다는 점을 지적합니다. 이에 따라 다양한 인지 능력 수준을 기반으로 RS의 비전-언어 작업을 계층적으로 분류하고, 원격 감지 비전-언어 작업 세트(RSVLTS)를 제안합니다. RSVLTS는 어휘 개방형 작업(OVT), 지시 표현 작업(RET), 기술된 객체 작업(DOT), 그리고 시각적 질문 응답(VQA)을 포함하며, 점 집합 기반의 통합 데이터 표현, 조건 파서, 그리고 순환적 지시에 기반한 자체 증강 전략을 제시합니다. 이러한 기능을 통합한 GeoRSMLLM 모델은 RSVLTS의 광범위한 작업을 처리하도록 설계되어 지구 과학 및 원격 감지 분야의 비전-언어 작업에 대한 더욱 일반적인 솔루션을 제시합니다.