SARCLIP: A Vision Language Foundation Model for Semantic Understanding and Target Recognition in SAR Imagery
Created by
Haebom
Category
Empty
저자
Qiwei Ma, Zhiyu Wang, Wang Liu, Xukun Lu, Bin Deng, Puhong Duan, Xudong Kang, Shutao Li
개요
본 논문은 전천후 이미징 기술인 합성 개구 레이더(SAR) 분야에서 시각-언어 모델 SARCLIP을 제안합니다. SARCLIP은 SAR 영상과 텍스트 설명을 연결하는 최초의 비전-언어 기반 모델로, 기존 데이터셋을 기반으로 구축된 100만 개 이상의 텍스트-이미지 쌍으로 구성된 대규모 데이터셋 SARCLIP-1M을 활용하여 구축되었습니다. Contrastive vision language learning 방식을 사용하고 도메인 이전 전략을 통해 훈련된 SARCLIP은 SAR 이미지 내 특징 추출 및 해석 능력을 향상시키며, 이미지-텍스트 검색 및 제로샷 분류 작업에서 기존 모델을 능가하는 성능을 보입니다.