Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation
Created by
Haebom
저자
Enming Zhang, Zhengyu Li, Yanru Wu, Jingge Wang, Yang Tan, Ruizhe Zhao, Guan Wang, Yang Li
개요
본 논문은 Vision Transformers (ViTs)를 이용한 의미론적 분할에서의 도메인 적응 문제를 해결하기 위해 새로운 지역 수준 적응 프레임워크인 Transferable Mask Transformer (TMT)를 제안한다. 기존의 전역 또는 패치 수준의 도메인 적응 방법의 한계를 극복하고자, Adaptive Cluster-based Transferability Estimator (ACTE)를 통해 이미지를 구조적, 의미적으로 일관된 영역으로 동적으로 분할하여 지역별 전달 가능성을 평가한다. 이후, Transferable Masked Attention (TMA) 모듈을 이용하여 지역별 전달 가능성 맵을 ViTs의 어텐션 메커니즘에 통합하여 전달 가능성이 낮고 의미적 불확실성이 높은 영역의 적응을 우선시한다. 20개의 교차 도메인 쌍에 대한 종합적인 평가 결과, TMT는 일반적인 미세 조정 및 최첨단 기준 모델에 비해 평균 2% 및 1.28%의 MIoU 향상을 달성했다. 소스 코드는 공개될 예정이다.
시사점, 한계점
•
시사점:
◦
지역 수준의 도메인 적응을 통해 ViT 기반 의미론적 분할의 도메인 적응 성능을 향상시킬 수 있음을 보여줌.