Segmenting Visuals With Querying Words: Language Anchors For Semi-Supervised Image Segmentation

Created by

Haebom

저자

Numair Nadeem, Saeed Anwar, Muhammad Hamza Asad, Abdul Bais

💡 개요

본 논문은 Vision Language Model (VLM)의 풍부한 의미론적 사전 지식을 활용하여 준지도 이미지 분할(Semi-supervised Semantic Segmentation) 성능을 향상시키는 새로운 방법론인 HVLFormer를 제안합니다. 기존 VLM 활용 방법론이 시각 및 텍스트 표현 간의 의미론적 불일치 문제를 해결하지 못하는 한계를 극복하기 위해, HVLFormer는 계층적이며 도메인 인식이 가능한 텍스트 쿼리 생성을 통해 시각-언어 정렬을 강화합니다. 이를 통해 적은 양의 학습 데이터만으로도 여러 벤치마크 데이터셋에서 최신 기술 대비 뛰어난 성능을 달성했습니다.

🔑 시사점 및 한계

•

VLM의 사전 지식을 활용한 준지도 학습에서 발생하는 시각-텍스트 표현 간의 의미론적 불일치 문제를 효과적으로 해결하는 방법론을 제시했습니다.

•

계층적 텍스트 쿼리 생성 및 이미지별 시각 정보 주입을 통해 클래스 의미론적 이해와 맥락적 추론 능력을 크게 향상시켰습니다.

•

도메인 강건성을 확보하기 위한 교차 뷰 및 모달 일관성 정규화 기법을 도입하여 안정적인 시각-언어 정렬을 달성했습니다.

•

제안된 HVLFormer는 매우 적은 학습 데이터(1% 미만)로도 준지도 의미론적 분할에서 SOTA 성능을 달성하여, 데이터 효율성이 중요한 실제 응용 분야에 큰 잠재력을 보여줍니다.

•

향후 연구에서는 더 복잡하고 다양한 도메인에 대한 HVLFormer의 적용 가능성을 탐색하고, 텍스트 쿼리 생성 및 정제 과정을 더욱 최적화하는 방안을 모색할 필요가 있습니다.

PDF 보기

Made with Slashpage