본 논문은 전천후 이미징 기술인 SAR(Synthetic Aperture Radar)을 위한 시각-언어 모델(VLM)인 SARVLM을 제안한다. 기존의 SAR 기반 모델들이 낮은 수준의 시각적 특징에 집중하고 다중 모드 정렬 및 제로샷 목표 인식 능력이 부족한 점을 개선하기 위해, 100만 개 이상의 이미지-텍스트 쌍을 포함하는 대규모 SARVLM-1M 데이터셋을 구축했다. 또한 자연 이미지와 SAR 이미지 간의 격차를 완화하기 위해 도메인 전이 훈련 전략을 제안하고, 이를 기반으로 SARCLIP과 SARCap으로 구성된 SARVLM을 개발했다. SARVLM은 제안된 도메인 전이 전략 하에서 시각-언어 대비 학습을 통해 SAR 이미지와 텍스트 설명을 연결하며, 이미지 텍스트 검색, 제로샷 분류, 의미적 위치 파악, 이미지 캡셔닝 등에서 기존 VLM보다 우수한 성능을 보였다.