[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging

Created by
  • Haebom

저자

Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Xi Chen, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui

개요

본 논문은 자원 제약 환경에서의 대규모 언어 모델(LLM) 배포의 어려움을 해결하기 위해, 매니폴드 학습과 정규화된 쌍방향 정보 병목(NPIB) 척도를 이용하여 유사한 레이어를 병합하는 새로운 압축 기법인 매니폴드 기반 지식 정렬 및 레이어 병합 압축(MKA)을 제안한다. MKA는 기존의 파라미터 가지치기와 같은 방법보다 효과적으로 지식을 활용하여 모델 크기를 줄이면서 성능을 유지한다. 여러 벤치마크 데이터셋과 다양한 LLM에서 평가한 결과, MKA는 기존 가지치기 방법보다 우수한 압축률을 달성하면서 모델 성능을 유지하는 것으로 나타났다. 특히 양자화와 결합하면 더욱 높은 압축률을 달성한다. Llama3-8B 모델을 사용한 MMLU 데이터셋에서 43.75%의 압축률을 달성하면서 성능 저하는 2.82%에 불과했다.

시사점, 한계점

시사점:
기존의 LLM 압축 기법의 한계를 극복하는 새로운 방법 제시
매니폴드 학습과 NPIB를 활용하여 효과적인 레이어 병합 및 압축 달성
높은 압축률과 성능 유지의 동시 달성
양자화와의 결합을 통한 더욱 높은 압축률 가능성 제시
자원 제약 환경에서의 LLM 배포 가능성 확대
한계점:
제시된 방법의 일반화 성능에 대한 추가 연구 필요
다양한 LLM 아키텍처에 대한 적용 가능성 및 효율성 검증 필요
실제 응용 환경에서의 성능 평가 및 안정성 검증 필요
👍