Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation

Created by
  • Haebom
Category
Empty

저자

Masud Ahmed, Zahid Hasan, Syed Arefinul Haque, Abu Zaher Md Faridee, Sanjay Purushotham, Suya You, Nirmalya Roy

개요

본 논문은 기존 Transformer 기반 의미 분할이 양자화된 임베딩에 의존하는 한계를 극복하고자 연속값 임베딩 프레임워크를 제안합니다. 의미 마스크 생성을 연속적인 이미지-임베딩 확산 과정으로 재구성하여 이산적인 잠재 표현 없이도 미세한 공간 및 의미적 세부 정보를 유지합니다. 핵심 기여는 이미지 특징의 장거리 의존성을 모델링하는 확산 안내 자기회귀 트랜스포머로, 연속적인 의미 임베딩 공간을 학습합니다. VAE 인코더, 확산 안내 트랜스포머, VAE 디코더로 구성된 통합 아키텍처를 통해 제로샷 도메인 적응 기능을 제공하며, Cityscapes 등 다양한 데이터셋에서 최첨단의 분포 이동에 대한 강건성을 보여줍니다. 악천후, 시점 변화, 가우시안 노이즈, 모션 블러, 명암 변화 등에 강건하며, 솔트 앤 페퍼 노이즈, 채도 및 색조 변화에도 상대적으로 강건한 성능을 보입니다.

시사점, 한계점

시사점:
양자화된 임베딩의 한계를 극복하고 연속값 임베딩을 활용한 의미 분할의 새로운 가능성 제시.
확산 모델과 트랜스포머를 결합하여 장거리 의존성을 효과적으로 모델링.
제로샷 도메인 적응 기능을 통해 다양한 도메인에 대한 강건성 확보.
다양한 노이즈 및 이미지 변형에 대한 강건한 성능 입증.
State-of-the-art 성능 달성.
한계점:
특정 노이즈(50% 솔트 앤 페퍼 노이즈, 채도 및 색조 변화)에 대해서는 성능 저하가 발생.
제안된 모델의 계산 비용 및 복잡도에 대한 분석 부족.
다양한 데이터셋에 대한 일반화 성능에 대한 추가적인 연구 필요.
👍