Less is More: Multimodal Region Representation via Pairwise Inter-view Learning
Created by
Haebom
저자
Min Namgung, Yijun Lin, JangHyeon Lee, Yao-Yi Chiang
개요
본 논문은 지리 공간 데이터의 증가에 따라 복잡한 지역 특성 분석을 위한 지역 표현 학습(RRL)에 대한 연구가 활발해짐에 따라, 기존의 대조 학습(CL) 기반 RRL 방법들이 각 모달리티 고유의 정보를 간과하는 문제점을 지적합니다. 이러한 모달리티 특유의 정보는 공유 정보만으로는 포착할 수 없는 지역 특성을 설명할 수 있습니다. 따라서 본 논문에서는 다중 모달리티 데이터를 공유 정보와 고유 정보로 분해하는 정보 분해를 RRL에 적용하여 이 문제를 해결하고자 합니다. 기존의 정보 분해 방법들이 주로 두 가지 모달리티에 집중한 것과 달리, 본 논문에서는 여러 지리 공간 데이터를 활용하는 RRL에 적용 가능한, 고차원 관계를 모델링하지 않고도 고차원 정보를 포착하는 쌍방향 상호 학습 방식을 사용하는 Cross modal Knowledge Injected Embedding (CooKIE) 모델을 제안합니다. 뉴욕시와 인도 델리의 회귀 및 토지 이용 분류 작업을 통해 CooKIE의 성능을 평가한 결과, 기존 RRL 방법들과 정보 분해 RRL 모델보다 우수한 성능을 보였으며, 더 적은 매개변수와 FLOPs로 다중 모달리티 정보를 효과적으로 포착함을 확인했습니다. 소스 코드는 공개되었습니다 (https://github.com/MinNamgung/CooKIE).