Vision Transformer(ViT)는 뛰어난 성능을 보이지만, 높은 계산량, 메모리 사용량, 에너지 소비로 인해 리소스가 제한된 플랫폼에서의 배포가 어렵다. 본 논문에서는 \emph{Cascaded-ViT (CViT)}를 제안하며, \emph{Cascaded-Chunk Feed Forward Network (CCFFN)}라는 새로운 피드포워드 네트워크 설계를 특징으로 하는 경량화되고 계산 효율적인 비전 트랜스포머 아키텍처이다. CCFFN은 입력 특징을 분할함으로써 정확도를 희생하지 않고 파라미터 및 FLOP 효율성을 향상시킨다. ImageNet-1K 실험 결과, \emph{CViT-XL} 모델은 EfficientViT-M5 대비 FLOPs를 15% 감소시키고 에너지 소비를 3.3% 줄이면서 75.5% Top-1 정확도를 달성했다. CViT는 다양한 모델 크기에서 일관되게 가장 낮은 에너지 소비를 보여 모바일 폰 및 드론과 같은 배터리 제약이 있는 장치에 적합하다. 또한, 정확도 대비 계산 효율성을 정량화하는 새로운 지표인 \emph{Accuracy-Per-FLOP (APF)}를 사용하여 평가했을 때 CViT 모델은 일관되게 최고 수준의 효율성을 달성했다. 특히, CViT-L은 EfficientViT-M2보다 2.2% 더 정확하면서 유사한 APF 점수를 가진다.