본 논문은 제한된 추론 예산 내에서 효율적이고 배포 가능한 모델에 대한 필요성이 증가함에 따라, 대규모 언어 모델의 효율적인 구조적 가지치기 파이프라인을 연구합니다. 기존 연구에서 간과되었던 확장된 모델 사전 훈련을 가지치기에 통합하는 것을 제안하며, 확장 및 가지치기 파이프라인을 통합 시스템으로 연구하여 확장된 모델을 사전 훈련하는 것이 가치가 있는지, 그리고 더 나은 가지치기 모델을 위해 전체 파이프라인을 어떻게 최적화할 수 있는지에 대한 두 가지 중요한 질문에 답합니다. 단일 코사인 어닐링 학습률 일정표 하에 확장된 모델 훈련, 가지치기 및 복구를 결합한 통합 확장 및 가지치기 파이프라인을 제안하고, 점진적인 매개변수 제거를 위한 새로운 반복적 구조적 가지치기 방법을 제시합니다. 이는 단순한 확장 및 가지치기 파이프라인에서 학습률 증가로 인한 지식 손실을 완화하고, 생존 뉴런 간의 모델 용량 재분배를 용이하게 하여 원활한 압축과 성능 향상을 가능하게 합니다. 2.8B 모델을 1.3B로 압축하는 실험을 통해 확장된 모델 사전 훈련의 토큰 효율성에 대한 통찰력을 제공하고, 가지치기된 모델의 성능을 향상시키는 통합 접근 방식의 효과를 보여줍니다.