본 논문은 다양한 시간과 스펙트럼 대역에서 위성 기반 이미징 시스템으로 수집된 지리 공간 래스터 데이터의 활용 가능성을 높이기 위해, 채널과 모달리티 증가에 따른 확장성 및 계산 효율성 문제를 해결하는 새로운 모델인 Low-rank Efficient Spatial-Spectral Vision Transformer (LESS ViT)를 제안합니다. LESS ViT는 저차원 공간 및 스펙트럼 어텐션 구성 요소의 Kronecker 곱을 통해 고차원 공간-스펙트럼 어텐션을 근사하는 LESS Attention Block, 공간-스펙트럼 패치의 연속성과 물리적 특성을 보존하는 Continuous Positional-Channel Embedding Layer, 그리고 인접 패치에 대한 어텐션을 제한하여 국지적 공간 의존성을 활용하는 Perception Field Mask의 세 가지 혁신적인 구성 요소로 이루어져 있습니다. Hyperspectral Masked Autoencoder 프레임워크를 사용하여 LESS ViT를 사전 학습하고, GFM-Bench라는 종합적인 벤치마크를 구축하여 성능을 평가했습니다. 실험 결과, LESS ViT는 최첨단 다중 모달 지리 공간 기반 모델에 비해 경쟁력 있는 성능을 달성하며, 특히 크로스-위성 일반화 작업에서 더 높은 계산 효율성으로 우수한 성능을 보였습니다.