Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging
Created by
Haebom
저자
Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Xi Chen, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui
개요
본 논문은 자원 제약 환경에서의 대규모 언어 모델(LLM) 배포의 어려움을 해결하기 위해, 매니폴드 학습과 정규화된 쌍방향 정보 병목(NPIB) 척도를 이용하여 유사한 레이어를 병합하는 새로운 압축 기법인 매니폴드 기반 지식 정렬 및 레이어 병합 압축(MKA)을 제안한다. MKA는 기존의 파라미터 가지치기와 같은 방법보다 효과적으로 지식을 활용하여 모델 크기를 줄이면서 성능을 유지한다. 여러 벤치마크 데이터셋과 다양한 LLM에서 평가한 결과, MKA는 기존 가지치기 방법보다 우수한 압축률을 달성하면서 모델 성능을 유지하는 것으로 나타났다. 특히 양자화와 결합하면 더욱 높은 압축률을 달성한다. Llama3-8B 모델을 사용한 MMLU 데이터셋에서 43.75%의 압축률을 달성하면서 성능 저하는 2.82%에 불과했다.