본 논문은 Vision Transformer (ViT)의 계산 복잡도 문제를 해결하기 위해 Semantic-Aware Clustering Vision Transformer (SAC-ViT)를 제안합니다. SAC-ViT는 초기 추론 결과를 생성하는 Early Exit (EE) 단계와, 목표 토큰과 비목표 토큰으로 클러스터링하여 계산량을 줄이는 Semantic-Aware Clustering (SAC) 단계의 두 단계로 구성됩니다. EE 단계에서 충분한 정확도가 확보되지 않을 경우, SAC 단계에서 목표 토큰만을 고해상도로 처리하고, 비목표 토큰은 EE 단계의 결과를 재사용하여 계산량을 효율적으로 줄입니다. End-to-end 최적화를 통해 공간적 중복성을 감소시키고, DeiT 대비 62%의 FLOPs 감소와 1.98배의 처리량 향상을 달성합니다.