본 논문은 기존의 원격 감지 이미지를 여러 스케일로 수동 확대하여 사용하는 방식의 한계를 극복하기 위해, 103만 개 이상의 확대되지 않은 원격 감지 이미지로 구성된 새로운 데이터셋 MEET를 소개합니다. MEET는 80개의 세분화된 카테고리로 수동 주석이 달려 있으며, 중앙 장면과 주변 장면을 포함하는 scene-in-scene 레이아웃을 따릅니다. 또한, scene-in-scene 분류 문제에 특화된 새로운 모델인 Context-Aware Transformer (CAT)를 제시합니다. CAT은 중앙 장면과 주변 장면 간의 관계를 포착하는 어텐션 특징을 학습하여 공간적 맥락을 적응적으로 융합하여 정확하게 장면을 분류합니다. 다양한 기준 모델과의 비교 실험을 통해 CAT의 우수성을 검증하고, 도시 기능 구역 매핑 등 실제 적용 가능성을 보여줍니다. 데이터셋과 소스 코드는 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
확대되지 않은 고해상도 원격 감지 이미지를 활용한 세분화된 지리 공간 장면 분류를 위한 대규모 데이터셋 MEET를 제공합니다.
◦
scene-in-scene 구조를 고려한 새로운 모델 CAT을 제시하고, 그 우수성을 실험적으로 증명합니다.