본 논문은 기존의 의미론적 분할 모델들이 객체 간의 문맥 및 의미 관계를 포착하는 데 제한적이라는 점을 지적하며, 이를 해결하기 위한 새로운 문맥 인식 의미론적 분할 프레임워크를 제안합니다. Swin Transformer를 기반으로 강력한 시각적 특징을 추출하고, GPT-4를 활용하여 텍스트 임베딩을 통해 의미 이해를 풍부하게 합니다. 교차 어텐션 메커니즘을 통해 시각 및 언어 특징을 정렬하고, GNN을 이용하여 객체 간의 관계를 모델링함으로써 기존 모델들이 간과하는 의존성을 포착합니다. COCO, Cityscapes 등의 벤치마크 데이터셋에서 기존 방법보다 pixel-level 정확도(mIoU)와 문맥 이해(mAP) 모두에서 우수한 성능을 보였습니다. 자율주행, 의료 영상, 로봇공학 등의 응용 분야에 더욱 지능적이고 문맥 인식적인 비전 시스템을 위한 길을 열었습니다.