MobCLIP은 다양한 데이터 모달리티(POI, 원격 감지 이미지, 인구 통계 데이터, 이동성 그래프)를 통합하여 전국 규모의 범용 위치 인코더를 제시하는 논문입니다. Vision Transformer에서 영감을 받은 그리드 셀 토큰화를 통해 이동 패턴과 다양한 특징을 연결하는 통합 표현 공간을 구축합니다. 11가지 다운스트림 예측 작업으로 구성된 벤치마크 데이터셋을 사용하여 MobCLIP의 성능을 평가했으며, 기존 최고 모델보다 평균 35% 향상된 성능을 보였습니다. 특히 에너지 소비, 오프라인 소매 소비액, 범죄 발생 건수 예측과 같은 인간 중심 작업에서 현저한 성능 향상을 보였습니다. 또한 지리 공간 표현 학습의 확장성을 보여줍니다. 소스 코드와 사전 훈련된 모델은 공개되어 있습니다.