본 논문은 지도 학습 기반의 팬샤프닝(pansharpening) 신경망이 겪는 해상도에 따른 도메인 적응 문제를 해결하기 위해, 시각-언어 모델 CLIP을 활용한 비지도 학습 기반의 팬샤프닝 프레임워크 CLIPPan을 제안한다. CLIP을 팬샤프닝에 직접 적용하는 과정에서 발생하는 자연 이미지 편향 및 태스크 이해 부족 문제를 해결하기 위해, 경량화된 파인 튜닝 파이프라인을 도입하여 CLIP을 저해상도 다중 분광, 팬크로매틱, 고해상도 다중 분광 이미지 인식 및 팬샤프닝 프로세스 이해에 적합하도록 한다. 또한, 이미지 레벨 융합 변환을 텍스트 프롬프트(예: Wald's 또는 Khan's 설명)와 정렬하는 새로운 손실 함수를 도입하여 CLIPPan이 언어를 강력한 감독 신호로 활용하고, 정답 없이 융합 학습을 수행할 수 있도록 한다. 광범위한 실험을 통해 CLIPPan이 실제 데이터셋에서 다양한 팬샤프닝 백본에 걸쳐 스펙트럼 및 공간적 충실도를 지속적으로 향상시키며, 비지도 풀 해상도 팬샤프닝 분야에서 새로운 최고 성능을 달성함을 입증한다.