Vision Transformer(ViT) 모델의 성능 향상을 위해 모델 크기를 키우는 것은 중요하지만, 훈련 비용이 많이 든다는 문제점이 존재한다. 본 논문에서는 사전 훈련된 모델을 기반으로 파라미터 증가를 최소화하면서 ViT 모델을 확장하는 효율적인 방법인 ScaleNet을 제시한다. ScaleNet은 레이어별 가중치 공유와 조정 파라미터를 사용하여 모델 확장을 수행하여 비용 효율적인 솔루션을 제공한다. ImageNet-1K 데이터셋 실험 결과, ScaleNet은 DeiT-Base 모델의 깊이를 2배로 확장했을 때 처음부터 훈련하는 방식보다 7.42%의 정확도 향상을 보였으며, 훈련 에폭은 1/3로 줄었다. 또한, 객체 감지 작업에서도 유망한 결과를 보여 다운스트림 비전 분야에서의 잠재력을 입증했다.