본 논문은 다양한 시간과 스펙트럼 대역에서 위성 기반 이미징 시스템 등으로 수집된 지리 공간 래스터(영상) 데이터의 활용 가능성을 높이기 위해 저계급 효율적 공간-스펙트럼 비전 트랜스포머(LESS ViT)를 제안합니다. LESS ViT는 기존 자기 지도 학습 방식의 확장성 및 계산 효율성 문제를 해결하기 위해 세 가지 혁신적인 요소를 도입합니다. 첫째, 저차원 공간 및 스펙트럼 어텐션 구성 요소의 크로네커 곱을 통해 고차원 공간-스펙트럼 어텐션을 근사하는 LESS 어텐션 블록입니다. 둘째, 각 패치의 공간 및 스펙트럼 연속성과 물리적 특성을 보존하는 연속 위치-채널 임베딩 계층입니다. 셋째, 어텐션을 인접 패치로 제한하여 국소 공간 의존성을 활용하는 지각 필드 마스크입니다. 본 논문에서는 제안된 혁신을 평가하기 위해 지리 공간 래스터 데이터를 위한 종합적인 벤치마크인 GFM-Bench를 구축하고, 위치 및 채널 마스킹 전략이 통합된 초분광 마스크 자동 인코더 프레임워크를 사용하여 LESS ViT를 사전 훈련합니다. 실험 결과, LESS ViT는 기존 최첨단 다중 모달 지리 공간 기반 모델을 능가하는 성능을 보이며, 적은 계산량과 매개변수로 우수한 성능을 달성합니다. LESS ViT의 유연성과 확장성은 다양한 모달리티와 채널을 포함하는 미래의 지리 공간 데이터 분석 작업에 유망한 방향을 제시합니다.