본 논문은 Vision Transformers (ViT-B/16, ImageNet-1K)에서 MLP 블록에 대한 두 가지 간단한 파라미터 감소 전략을 연구합니다. GroupedMLP는 인접한 transformer 블록 간에 MLP 가중치를 공유하여 81.47%의 top-1 정확도를 달성하고, ShallowMLP는 MLP 은닉 차원을 줄여 81.25%의 top-1 정확도를 달성하며 추론 처리량을 38% 증가시켰습니다. 두 모델 모두 86.6M 파라미터의 baseline 모델 (81.05%)보다 우수한 성능을 보였으며, 훈련 안정성 또한 향상되었습니다.