MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders
Created by
Haebom
저자
Baijiong Lin, Weisen Jiang, Pengguang Chen, Shu Liu, Ying-Cong Chen
개요
본 논문은 다중 작업 밀집 장면 이해를 위한 새로운 아키텍처인 MTMamba++를 제안합니다. Mamba 기반 디코더를 사용하는 MTMamba++는 자기 작업 Mamba (STM) 블록과 교차 작업 Mamba (CTM) 블록이라는 두 가지 핵심 블록으로 구성됩니다. STM 블록은 상태 공간 모델을 활용하여 장거리 의존성을 처리하고, CTM 블록은 작업 간 상호 작용을 명시적으로 모델링하여 작업 간 정보 교환을 용이하게 합니다. 특히, 특징과 의미론적 관점에서 교차 작업 상호 작용을 향상시키기 위해 F-CTM과 S-CTM이라는 두 가지 유형의 CTM 블록을 설계했습니다. NYUDv2, PASCAL-Context, Cityscapes 데이터셋에 대한 광범위한 실험 결과, MTMamba++는 CNN 기반, Transformer 기반 및 확산 기반 방법보다 우수한 성능을 보이며 높은 계산 효율성을 유지함을 보여줍니다. 코드는 https://github.com/EnVision-Research/MTMamba 에서 이용 가능합니다.