Sign In

IDEA Prune: An Integrated Enlarge-and-Prune Pipeline in Generative Language Model Pretraining

Created by
  • Haebom
Category
Empty

저자

Yixiao Li, Xianzhi Du, Ajay Jaiswal, Tao Lei, Tuo Zhao, Chong Wang, Jianyu Wang

개요

본 논문은 제한된 추론 예산 내에서 효율적이고 배포 가능한 모델에 대한 필요성이 증가함에 따라, 대규모 언어 모델의 효율적인 구조적 가지치기 파이프라인을 연구합니다. 기존 연구에서 간과되었던 확장된 모델 사전 훈련을 가지치기에 통합하는 것을 제안하며, 확장 및 가지치기 파이프라인을 통합 시스템으로 연구하여 확장된 모델을 사전 훈련하는 것이 가치가 있는지, 그리고 더 나은 가지치기 모델을 위해 전체 파이프라인을 어떻게 최적화할 수 있는지에 대한 두 가지 중요한 질문에 답합니다. 단일 코사인 어닐링 학습률 일정표 하에 확장된 모델 훈련, 가지치기 및 복구를 결합한 통합 확장 및 가지치기 파이프라인을 제안하고, 점진적인 매개변수 제거를 위한 새로운 반복적 구조적 가지치기 방법을 제시합니다. 이는 단순한 확장 및 가지치기 파이프라인에서 학습률 증가로 인한 지식 손실을 완화하고, 생존 뉴런 간의 모델 용량 재분배를 용이하게 하여 원활한 압축과 성능 향상을 가능하게 합니다. 2.8B 모델을 1.3B로 압축하는 실험을 통해 확장된 모델 사전 훈련의 토큰 효율성에 대한 통찰력을 제공하고, 가지치기된 모델의 성능을 향상시키는 통합 접근 방식의 효과를 보여줍니다.

시사점, 한계점

시사점:
확장된 모델 사전 훈련을 가지치기에 통합하는 것이 가지치기 모델의 성능 향상에 효과적임을 보여줌.
단일 코사인 어닐링 학습률 일정표를 사용한 통합 파이프라인이 학습률 증가로 인한 지식 손실을 완화하고 성능을 향상시킴.
새로운 반복적 구조적 가지치기 방법이 모델 용량의 효율적인 재분배를 가능하게 함.
대규모 언어 모델의 효율적인 압축 및 배포에 대한 실용적인 해결책 제시.
한계점:
제안된 방법의 효과가 특정 모델 크기와 사전 훈련 토큰 수에 국한될 가능성.
다른 유형의 대규모 언어 모델이나 작업에 대한 일반화 가능성에 대한 추가 연구 필요.
사전 훈련에 사용된 토큰 수(2T)가 매우 크므로, 다른 규모의 데이터셋에 대한 실험 결과가 필요할 수 있음.
구체적인 하이퍼파라미터 튜닝 전략에 대한 자세한 설명 부족.
👍