Multi-encoder ConvNeXt Network with Smooth Attentional Feature Fusion for Multispectral Semantic Segmentation

Created by

Haebom

저자

Leo Thomas Ramos, Angel D. Sappa

💡 개요

본 연구는 다중 스펙트럼 영상의 토지 피복 분할을 위한 MeCSAFNet이라는 새로운 다중 브랜치 인코더-디코더 네트워크를 제안합니다. 이 모델은 가시광선 및 비가시광선 채널을 분리하여 처리하고, 여러 스케일에서 중간 특징을 융합하며, CBAM 어텐션을 통해 융합을 강화합니다. 다양한 스펙트럼 입력 구성에 대해 우수한 성능을 보여주며, 특히 Five-Billion-Pixels 및 Potsdam 데이터셋에서 기존 최신 모델 대비 상당한 성능 향상을 달성했습니다.

🔑 시사점 및 한계

•

다중 스펙트럼 영상에서 가시광선과 비가시광선 채널을 분리하여 효과적으로 처리하고, 다중 스케일 특징 융합을 통해 공간적 정보와 스펙트럼 정보를 통합하는 새로운 아키텍처의 가능성을 제시합니다.

•

다양한 스펙트럼 입력 구성(4채널, 6채널) 및 다양한 데이터셋에서 기존 최신 모델 대비 우수한 성능을 입증하여, 실제 토지 피복 분할 응용 분야에 대한 잠재력을 보여줍니다.

•

모델의 컴팩트한 변형이 낮은 학습 시간과 추론 비용으로도 주목할 만한 성능을 달성하여, 자원 제약적인 환경에서의 배포 가능성을 열었습니다.

•

본 연구는 특정 어텐션 메커니즘(CBAM)과 활성화 함수(ASAU)를 활용하였으나, 다른 최신 어텐션 기법이나 활성화 함수와의 비교 또는 조합에 대한 탐색은 향후 연구 과제로 남을 수 있습니다.

PDF 보기

Made with Slashpage