본 논문은 엣지 디바이스에서 광범위하게 활용되는 소형 언어 모델(SLM)의 성능 향상을 위한 연구를 제시한다. 기존의 SLM 구축 방식인 처음부터의 사전 훈련은 높은 계산 비용이 들고, 기존 대형 언어 모델(LLM)의 압축/가지치기는 성능 저하를 야기한다는 문제점을 해결하고자 한다. 본 연구에서는 구조적 가지치기와 모델 훈련을 결합한 가속화 방법을 탐구하며, 특히 계층별 적응형 가지치기(Adapt-Pruner)의 효과를 중점적으로 분석한다. LLaMA-3.1-8B 모델을 대상으로 한 실험 결과, Adapt-Pruner는 기존 가지치기 기법보다 우수한 성능을 보였으며, MobileLLM-125M의 성능을 600M 수준으로 회복시키는 동시에 LLaMA-3.2-1B를 능가하는 새로운 1B 모델을 발견했다.
시사점, 한계점
•
시사점:
◦
Adapt-Pruner는 LLM의 성능 향상에 효과적이며, 기존 가지치기 기법보다 우수한 성능을 보인다.
◦
적응형 가지치기와 추가 훈련의 결합은 초기부터 훈련된 모델과 유사한 성능을 달성할 수 있다.
◦
점진적 가지치기는 훈련과 가지치기를 번갈아 수행하며, 소량의 뉴런만 제거하여 의미 있는 성능 향상을 이끌어낸다.
◦
Adapt-Pruner는 기존 모델의 성능을 복원하고, 새로운 성능의 모델을 발견하는 데 기여한다.
•
한계점:
◦
LLaMA-3.1-8B 모델 및 특정 벤치마크에 대한 실험 결과에 국한되어, 다른 모델 및 벤치마크에 대한 일반화 가능성은 추가 연구가 필요하다.
◦
모델 압축 시 성능 저하를 완전히 해결하지 못할 수 있으며, 최적의 가지치기 비율 및 훈련 방식에 대한 추가적인 탐구가 필요하다.
◦
계산 비용 및 훈련 시간과 관련된 세부적인 정보가 논문에 명시되지 않아, 실제 적용 시의 효율성을 평가하기 어렵다.
◦
본 연구에서 사용된 특정 모델(LLaMA-3.1-8B, MobileLLM-125M 등) 외의 모델에 대한 적용 가능성을 추가적으로 검증해야 한다.