본 논문은 Vision Transformer (ViT)의 높은 계산량, 메모리 사용량, 에너지 소비 문제를 해결하기 위해 경량화 및 계산 효율성을 높인 새로운 ViT 아키텍처인 Cascaded-ViT (CViT)를 제안합니다. CViT는 Cascaded-Chunk Feed Forward Network (CCFFN)이라는 새로운 feedforward network 설계를 특징으로 하며, 입력 특징을 분할하여 파라미터 및 FLOP 효율성을 향상시킵니다. ImageNet-1K 실험 결과, CViT-XL 모델은 EfficientViT-M5 대비 15% FLOPs 감소 및 3.3% 에너지 소비 감소를 달성하면서 75.5% Top-1 정확도를 기록했습니다. CViT 모델은 다양한 크기에서 낮은 에너지 소비를 보이며, 정확도 대비 계산 효율성을 나타내는 Accuracy-Per-FLOP (APF) 지표에서도 우수한 성능을 보였습니다.