본 논문은 지구 관측(EO)을 위한 비전-언어 모델에 다중분광 채널 정보를 활용하여 성능을 향상시킨 Llama3-MS-CLIP 모델을 제시합니다. 기존 모델들이 주로 가시광선 영역의 데이터만 사용하는 한계를 극복하고자, 대규모 다중분광 데이터셋을 사용한 대조 학습으로 사전 훈련된 최초의 비전-언어 모델입니다. 또한, 100만 개의 Sentinel-2 샘플과 해당 텍스트 설명으로 구성된, 현재까지 가장 큰 규모의 다중분광 이미지-캡션 데이터셋을 공개합니다. Llama3-MS-CLIP은 다중분광 영상 분류 및 검색 작업에서 기존 RGB 기반 모델들보다 우수한 성능을 보이며, 평균 분류 정확도는 +6.77%, 검색 성능은 +4.63% mAP 향상을 기록했습니다. 데이터셋, 코드 및 모델 가중치는 공개 저장소를 통해 이용 가능합니다.