본 논문은 다양한 시간과 스펙트럼 대역에서 위성 기반 이미징 시스템으로 수집된 지리 공간 래스터 데이터를 효율적으로 처리하기 위한 새로운 비전 트랜스포머 기반 모델인 LESS ViT를 제안합니다. 기존의 자기 지도 학습 방식의 확장성 및 계산 효율성 문제를 해결하기 위해, LESS ViT는 세 가지 핵심 혁신을 도입합니다: 1) 저차원 공간 및 스펙트럼 어텐션의 크로네커 곱을 이용하여 고차원 공간-스펙트럼 어텐션을 근사하는 LESS 어텐션 블록, 2) 각 공간-스펙트럼 패치의 연속성과 물리적 특성을 보존하는 연속 위치-채널 임베딩 레이어, 3) 인접 패치에 대한 어텐션을 제한하여 국지적 공간 의존성을 활용하는 수용장 마스크. 제안된 모델의 성능을 평가하기 위해, 포괄적인 벤치마크인 GFM-Bench를 구축하고, Hyperspectral Masked Autoencoder 프레임워크를 이용하여 LESS ViT를 사전 훈련합니다. 실험 결과, LESS ViT는 최첨단 다중 모달 지리 공간 기반 모델들과 비교하여 경쟁력 있는 성능을 보이며, 특히 위성 간 일반화 작업에서 더 높은 계산 효율성으로 우수한 성능을 달성합니다.