본 논문은 소수의 주석이 달린 예시만으로 질의 이미지에서 객체를 분할하는 과제인 Few-shot Semantic Segmentation에 대해 다룹니다. 기존 최첨단 방법들은 복잡한 지역적 의미 특징을 버리거나 높은 계산 복잡도를 갖는 문제점을 가지고 있습니다. 이를 해결하기 위해 Transformer 아키텍처 기반의 새로운 Few-shot Semantic Segmentation 프레임워크를 제안합니다. 공간 변환기 디코더와 문맥 마스크 생성 모듈을 도입하여 지원 이미지와 질의 이미지 간의 관계적 이해를 향상시키고, 다중 스케일 디코더를 통해 계층적 방식으로 다양한 해상도의 특징을 통합하여 분할 마스크를 개선합니다. 또한, 중간 인코더 단계의 전역 특징을 통합하여 문맥적 이해를 향상시키면서 경량 구조를 유지하여 복잡성을 줄입니다. 성능과 효율성 간의 균형을 통해 PASCAL-5i 및 COCO-20i와 같은 벤치마크 데이터셋에서 1-shot 및 5-shot 설정 모두에서 경쟁력 있는 결과를 달성합니다. 특히, 150만 개의 매개변수만으로 기존 방법의 한계를 극복하면서 경쟁력 있는 성능을 보여줍니다.