본 논문은 원격 감지 분야의 비전-언어 모델(VLMs)의 한계점을 해결하기 위해, 원격 감지 세계 지식(RSWK) 데이터셋을 구축하고, 지식 기반 증강 생성 프레임워크인 RS-RAG를 제안합니다. RSWK 데이터셋은 175개국 14,141개의 랜드마크에 대한 고해상도 위성 영상과 상세한 텍스트 설명을 포함하여 원격 감지 도메인 지식과 일반 세계 지식을 통합합니다. RS-RAG는 다중 모드 지식 벡터 데이터베이스 구성 모듈과 지식 검색 및 응답 생성 모듈로 구성되어 있으며, 이미지 및/또는 텍스트 쿼리에 기반하여 관련 지식을 검색하고 재순위 지정하여 VLM의 응답 생성을 안내합니다. 이미지 캡션 생성, 이미지 분류, 시각적 질문 응답 등 세 가지 비전-언어 작업에서 RS-RAG가 기존 최고 성능 모델을 능가함을 실험적으로 검증했습니다.