본 논문은 대규모 언어 모델(LLM)의 에지 디바이스 배포를 위한 계산 비용 절감을 목표로, 레이어 간 의존성을 고려한 새로운 연속 레이어 프루닝(CLP) 프레임워크를 제안한다. CLP는 경사 기반 최적화를 통해 프루닝에 적합한 연속적인 레이어 세그먼트를 자동으로 식별하는 차분 가능한 오목 게이트 알고리즘과, 프루닝된 세그먼트에 인접한 레이어만 미세 조정하여 모델 성능을 효과적으로 복원하는 컷오프 엔드포인트 튜닝 전략을 핵심으로 한다. 다양한 모델 아키텍처 및 크기에 대한 실험을 통해 CLP가 기존의 최첨단 프루닝 기법보다 뛰어난 성능을 보임을 입증하며, 양자화와 결합하여 추가적인 모델 압축도 가능하다는 것을 보여준다.
시사점, 한계점
•
시사점:
◦
레이어 간 의존성을 고려하여 모델 성능 저하를 최소화하는 새로운 레이어 프루닝 프레임워크 제시.