Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation

Created by
  • Haebom

저자

Enming Zhang, Zhengyu Li, Yanru Wu, Jingge Wang, Yang Tan, Ruizhe Zhao, Guan Wang, Yang Li

개요

본 논문은 Vision Transformers (ViTs)를 이용한 의미론적 분할에서의 도메인 적응 문제를 해결하기 위해 새로운 지역 수준 적응 프레임워크인 Transferable Mask Transformer (TMT)를 제안한다. 기존의 전역 또는 패치 수준의 도메인 적응 방법의 한계를 극복하고자, Adaptive Cluster-based Transferability Estimator (ACTE)를 통해 이미지를 구조적, 의미적으로 일관된 영역으로 동적으로 분할하여 지역별 전달 가능성을 평가한다. 이후, Transferable Masked Attention (TMA) 모듈을 이용하여 지역별 전달 가능성 맵을 ViTs의 어텐션 메커니즘에 통합하여 전달 가능성이 낮고 의미적 불확실성이 높은 영역의 적응을 우선시한다. 20개의 교차 도메인 쌍에 대한 종합적인 평가 결과, TMT는 일반적인 미세 조정 및 최첨단 기준 모델에 비해 평균 2% 및 1.28%의 MIoU 향상을 달성했다. 소스 코드는 공개될 예정이다.

시사점, 한계점

시사점:
지역 수준의 도메인 적응을 통해 ViT 기반 의미론적 분할의 도메인 적응 성능을 향상시킬 수 있음을 보여줌.
ACTE와 TMA 모듈을 통해 효과적으로 도메인 간 차이를 해소하고 전달 가능성을 높임.
20개의 교차 도메인 쌍에 대한 실험 결과를 통해 TMT의 우수성을 검증.
공개 소스 코드를 통해 재현성과 확장성 확보.
한계점:
ACTE 모듈의 계산 비용이 높을 수 있음.
특정 유형의 도메인 간 차이에 대해서는 성능 향상이 제한적일 수 있음.
다양한 ViT 아키텍처에 대한 일반화 가능성에 대한 추가 연구 필요.
👍