본 논문은 비전 트랜스포머(ViT)의 높은 계산 및 메모리 비용 문제를 해결하기 위해 STEP(SuperToken and Early-Pruning)이라는 하이브리드 토큰 감소 프레임워크를 제안합니다. STEP은 동적 패치 병합과 토큰 가지치기를 결합하여 효율성을 높이는 동시에 정확도 저하를 최소화합니다. 경량 CNN 기반 정책 네트워크인 dCTS를 사용하여 유연한 슈퍼패치 병합을 가능하게 하고, 인코더 블록에 조기 종료 기능을 통합하여 높은 신뢰도의 슈퍼토큰을 제거하여 계산 부하를 줄입니다. 1024 x 1024 크기의 고해상도 이미지를 포함한 고해상도 의미론적 분할 벤치마크에서 평가하여, dCTS만 적용해도 표준 16 x 16 픽셀 패칭 방식에 비해 토큰 수를 2.5배 줄일 수 있음을 보였습니다. ViT-Large를 백본으로 사용할 경우 계산 비용은 2.6배, 처리량은 3.4배 감소했습니다. 전체 STEP 프레임워크를 적용하면 계산 복잡도를 최대 4배까지 줄이고 추론 속도를 1.7배 향상시키며, 정확도 저하는 최대 2.0%에 불과합니다. 제안된 STEP 구성을 사용하면 최대 40%의 토큰을 최종 인코더 계층에 도달하기 전에 예측하고 중지할 수 있습니다.