Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DLP: Dynamic Layerwise Pruning in Large Language Models

Created by
  • Haebom

저자

Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 매개변수 규모를 줄이고 추론 효율성을 높이기 위한 새로운 가지치기 방법인 동적 계층별 가지치기(Dynamic Layerwise Pruning, DLP)를 제안합니다. 기존의 균일한 계층별 가지치기 방법은 높은 스파스성 수준에서 성능 저하를 초래하는 반면, DLP는 모델 가중치와 입력 활성화 정보를 통합하여 각 계층의 상대적 중요도를 적응적으로 결정하고, 그에 따라 가지치기 비율을 할당합니다. 실험 결과, DLP는 여러 LLM에서 높은 스파스성 수준에서도 모델 성능을 효과적으로 유지하며, 특히 70% 스파스성에서 LLaMA2-7B의 perplexity를 7.79 감소시키고 평균 정확도를 2.7% 향상시켰습니다. 또한, DLP는 기존의 다양한 LLM 압축 기술과 호환되며 매개변수 효율적인 미세 조정(PEFT)에도 원활하게 통합될 수 있습니다.

시사점, 한계점

시사점:
높은 스파스성 수준에서도 LLM의 성능 저하 없이 모델 크기를 효과적으로 줄일 수 있는 새로운 가지치기 방법을 제시합니다.
기존의 균일한 계층별 가지치기의 한계를 극복하고, LLM의 각 계층의 중요도를 동적으로 고려하여 최적의 가지치기 전략을 수립합니다.
다양한 기존 LLM 압축 기술 및 PEFT와의 호환성을 제공하여 실용성을 높였습니다.
공개된 코드를 통해 향후 연구를 위한 기반을 마련했습니다.
한계점:
DLP의 성능 향상이 특정 LLM(LLaMA2-7B)에 대한 결과에 국한될 수 있습니다. 다른 LLM 아키텍처나 크기에 대한 일반화 가능성을 추가적으로 검증할 필요가 있습니다.
적응적인 가지치기 비율 결정 과정의 계산 비용이 높을 수 있습니다. 계산 효율성을 개선하기 위한 추가적인 연구가 필요할 수 있습니다.
본 논문에서는 특정 스파스성 수준(70%)에 대한 결과만 제시하고 있습니다. 다양한 스파스성 수준에서의 성능 분석이 더 필요합니다.
👍