본 논문은 이미지 분할에서 마스크 생성과 분류를 분리하는 새로운 2단계 프레임워크인 ViT-P를 제안합니다. 1단계에서는 클래스와 무관한 마스크 제안을 생성하고, 2단계에서는 Vision Transformer(ViT) 기반의 점 기반 분류 모델을 사용하여 마스크 중심점에 집중하여 예측을 개선합니다. ViT-P는 사전 훈련이 필요 없는 어댑터로, 다양한 사전 훈련된 비전 트랜스포머와 통합이 가능하며, 밀집 예측 작업에 적응할 수 있습니다. 또한, 정밀한 어노테이션 데이터셋에서 추가 훈련 없이도, 조잡한 어노테이션과 바운딩 박스 어노테이션을 사용하여 분류 성능을 효과적으로 향상시킬 수 있음을 보여줍니다. COCO, ADE20K, Cityscapes 데이터셋에서의 광범위한 실험을 통해 ViT-P의 효과를 검증하였으며, ADE20K panoptic segmentation에서 54.0 PQ, Cityscapes semantic segmentation에서 87.4 mIoU, ADE20K semantic segmentation에서 63.6 mIoU의 최첨단 결과를 달성했습니다. 코드와 사전 훈련된 모델은 https://github.com/sajjad-sh33/ViT-P 에서 이용 가능합니다.