본 논문은 기존 Transformer 기반 의미 분할이 양자화된 임베딩에 의존하는 한계를 극복하고자 연속값 임베딩 프레임워크를 제안합니다. 의미 마스크 생성을 연속적인 이미지-임베딩 확산 과정으로 재구성하여 이산적인 잠재 표현 없이도 미세한 공간 및 의미적 세부 정보를 유지합니다. 핵심 기여는 이미지 특징의 장거리 의존성을 모델링하는 확산 안내 자기회귀 트랜스포머로, 연속적인 의미 임베딩 공간을 학습합니다. VAE 인코더, 확산 안내 트랜스포머, VAE 디코더로 구성된 통합 아키텍처를 통해 제로샷 도메인 적응 기능을 제공하며, Cityscapes 등 다양한 데이터셋에서 최첨단의 분포 이동에 대한 강건성을 보여줍니다. 악천후, 시점 변화, 가우시안 노이즈, 모션 블러, 명암 변화 등에 강건하며, 솔트 앤 페퍼 노이즈, 채도 및 색조 변화에도 상대적으로 강건한 성능을 보입니다.