Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training

Created by
  • Haebom

저자

Rui Pan, Boyao Wang, Shizhe Diao, Xingyuan Pan, Jipeng Zhang, Renjie Pi, Tong Zhang

개요

본 논문은 소형 언어 모델(SLM)의 성능 향상을 위한 새로운 가속화 방법인 Adapt-Pruner를 제안합니다. 기존의 SLM 학습 방법들은 처음부터 학습하는 방법(높은 계산 비용)이나 대형 언어 모델(LLM)을 압축/가지치기하는 방법(성능 저하)의 한계를 가지고 있습니다. Adapt-Pruner는 구조적 가지치기와 모델 학습을 결합하여 이러한 한계를 극복합니다. LLM에서 계층별 적응적 가지치기(Adapt-Pruner)가 기존 가지치기 기법들보다 효과적임을 보이며, 추가 학습과 결합하면 처음부터 학습한 모델과 비슷한 성능을 달성합니다. 증분적 가지치기를 통해 매번 소량의 뉴런(~5%)만 제거하면서 성능 향상을 얻을 수 있음도 확인했습니다. LLaMA-3.1-8B를 사용한 실험 결과, Adapt-Pruner는 기존 방법들보다 평균 1%-7% 높은 정확도를 보였고, MobileLLM-125M의 성능을 600M 수준으로 복원하며, 새로운 1B 모델이 LLaMA-3.2-1B를 능가하는 결과를 얻었습니다.

시사점, 한계점

시사점:
계층별 적응적 가지치기(Adapt-Pruner)는 기존의 LLM 가지치기 기법들보다 효과적이며, 성능 향상을 가져옵니다.
적응적 가지치기와 추가 학습을 결합하면 처음부터 학습하는 것과 유사한 성능의 SLM을 얻을 수 있습니다.
증분적 가지치기는 효율적인 성능 향상을 제공합니다.
본 논문에서 제시된 방법은 SLM 개발의 효율성을 크게 높일 수 있습니다.
개발된 Adapt-Pruner 코드가 공개되어 활용도가 높습니다.
한계점:
본 논문의 실험은 특정 LLM(LLaMA)과 벤치마크에 국한되어 있습니다. 다른 LLM이나 벤치마크에 대한 일반화 가능성은 추가 연구가 필요합니다.
Adapt-Pruner의 성능 향상은 상대적인 비교에 기반하며, 절대적인 성능 수준에 대한 평가는 추가적으로 필요합니다.
증분적 가지치기의 최적의 뉴런 제거 비율에 대한 추가적인 연구가 필요합니다.
👍