사전 훈련된 ViT를 계층적으로 지식 밀도를 가진 슈퍼 네트워크로 변환하는 방법을 제안합니다. 이는 다양한 모델 크기에 대해 최대의 지식을 유지하는 하위 네트워크를 유연하게 추출할 수 있게 합니다. 이를 위해, 핵심 가중치에 지식을 집중시키는 WPAC(Weighted PCA for Attention Contraction)와, 지식 계층화를 촉진하는 PIAD(Progressive Importance-Aware Dropout)를 소개합니다. 실험 결과, WPAC는 기존의 가지치기 기준보다 우수한 지식 집중 능력을 보였으며, PIAD와의 결합은 모델 압축 및 확장 방법론에 대한 강력한 대안을 제시했습니다.