본 논문은 다중분광 데이터의 풍부한 스펙트럼 정보를 활용하지 못하는 기존 지구 관측용 비전-언어 모델의 한계를 극복하기 위해, 대규모 다중분광 데이터셋으로 대조 학습을 통해 사전 훈련된 최초의 비전-언어 모델 Llama3-MS-CLIP을 제시한다. 백만 개의 Sentinel-2 샘플과 Llama3-LLaVA-Next 및 Overture Maps 데이터를 사용하여 생성된 텍스트 설명으로 구성된, 현재까지 가장 큰 다중분광 이미지-캡션 데이터셋도 함께 공개한다. Llama3-MS-CLIP은 다양한 복잡성을 가진 세 가지 데이터셋을 사용한 다중분광 제로샷 이미지 분류 및 검색 작업에서 기존 RGB 기반 접근 방식보다 성능이 훨씬 우수함을 보여주며, 분류 정확도는 평균 6.77%, 검색 성능은 mAP 기준 4.63% 향상되었다. 이미지-캡션 데이터셋, 코드 및 모델 가중치는 오픈소스 라이선스로 공개된다.