Sign In

SAC-ViT: Semantic-Aware Clustering Vision Transformer with Early Exit

Created by
  • Haebom
Category
Empty

저자

Youbing Hu, Yun Cheng, Anqi Lu, Dawei Wei, Zhijun Li

개요

본 논문은 Vision Transformer (ViT)의 계산 복잡도 문제를 해결하기 위해 Semantic-Aware Clustering Vision Transformer (SAC-ViT)를 제안합니다. SAC-ViT는 초기 추론 결과를 생성하는 Early Exit (EE) 단계와, 목표 토큰과 비목표 토큰으로 클러스터링하여 계산량을 줄이는 Semantic-Aware Clustering (SAC) 단계의 두 단계로 구성됩니다. EE 단계에서 충분한 정확도가 확보되지 않을 경우, SAC 단계에서 목표 토큰만을 고해상도로 처리하고, 비목표 토큰은 EE 단계의 결과를 재사용하여 계산량을 효율적으로 줄입니다. End-to-end 최적화를 통해 공간적 중복성을 감소시키고, DeiT 대비 62%의 FLOPs 감소와 1.98배의 처리량 향상을 달성합니다.

시사점, 한계점

시사점:
ViT의 계산 복잡도 문제를 효과적으로 해결하는 새로운 방법 제시.
DeiT 대비 62%의 FLOPs 감소 및 1.98배의 처리량 향상으로 자원 제약 환경에서 ViT의 적용 가능성 확대.
Early Exit 및 Semantic-Aware Clustering을 통한 효율적인 계산량 감소 전략 제시.
End-to-end 학습을 통한 성능 향상.
한계점:
제안된 방법의 효율성이 특정 데이터셋이나 모델에 국한될 가능성.
Early Exit 기준 설정 및 클러스터링 전략의 최적화에 대한 추가 연구 필요.
다양한 자원 제약 환경에서의 일반화 성능에 대한 추가적인 실험 필요.
SAC-ViT의 복잡성이 다른 경량화 기법에 비해 높을 수 있음.
👍