본 연구는 원격 감지 시각-언어 기반 모델(VLFM)에서 긴 텍스트 처리의 기술적 병목 현상과 부족한 짧은 텍스트 정보로 인한 "환각" 문제를 해결합니다. 이를 위해 새로운 시각-언어 기반 모델인 LRSCLIP과 다중 모드 데이터셋인 LRS2M을 제안합니다. LRS2M은 2백만 개의 이미지-텍스트 쌍을 포함하며, 기존 데이터셋의 의미적 세분성 한계 문제를 해결하기 위해 짧은 텍스트와 긴 텍스트를 모두 제공합니다. LRSCLIP은 Long-CLIP의 KPS 모듈을 기반으로 설계되어 CLIP의 텍스트 처리 능력을 확장하고 이중 텍스트 손실 가중 메커니즘을 통해 미세한 교차 모드 특징 정렬을 달성합니다. 실험 결과, LRSCLIP은 제로샷 장문 텍스트 교차 모드 검색 작업에서 Long-CLIP 기준 모델보다 10%-20% 향상된 검색 정확도를 보였으며, 제로샷 단문 텍스트 교차 모드 검색 작업에서도 기존 최고 모델인 GeoRSCLIP보다 성능이 향상되었습니다. 또한, 제로샷 이미지 분류 작업과 의미적 위치 확인 작업에서도 최첨단 성능을 달성했습니다.
시사점, 한계점
•
시사점:
◦
원격 감지 분야의 장문 텍스트 처리 및 환각 문제 해결에 기여하는 새로운 VLFM(LRSCLIP)과 대규모 데이터셋(LRS2M)을 제시.
◦
제로샷 장문 및 단문 텍스트 교차 모달 검색, 이미지 분류, 의미적 위치 확인 작업에서 최첨단 성능 달성.