DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights

작성자

Haebom

카테고리

비어 있음

저자

Liana Mikaelyan, Ayyoob Imani, Mathew Salvaris, Parth Pathak, Mohsen Fayyaz

개요

본 논문에서는 대규모 언어 모델(LLM)의 메모리 사용량을 줄이기 위한 새로운 사후 훈련 압축 기술인 DeltaLLM을 제시합니다. 연속적인 Transformer 블록 내 계층 간 가중치 공유와 이들 간 추가적인 저차원 차이 행렬을 사용하여 LLM을 구조화하는 대안적인 방법을 제안합니다. 훈련에는 진행 모듈 교체 방법을 채택하며, 약 30M-40M 토큰으로 저차원 모듈을 경량 훈련하는 것만으로도 처음부터 훈련된 동일한 크기의 LLM과 동등한 성능을 달성할 수 있음을 보여줍니다. 기존 Llama 및 Phi 모델 대비 매개변수를 12% 감소시킨 DeltaLLAMA 및 DeltaPHI 모델을 공개하며, 일반적인 지식 및 추론 벤치마크에서 기본 모델 성능의 90%를 유지합니다. 또한, 동일한 수의 매개변수를 제거한 JointDrop, LaCo, ShortGPT 및 SliceGPT 압축 기술보다 성능이 우수합니다. 예를 들어, 매개변수를 24% 감소시킨 DeltaPhi 2.9B는 복구 미세 조정된 SlicedPhi 3.3B (매개변수 12% 감소)와 유사한 평균 제로샷 정확도를 달성하지만, 약 400M 매개변수가 더 작고 미세 조정이 적용되지 않았습니다. 본 연구는 저장 공간이 중요할 때 LLM 아키텍처 설계 및 압축 방법에 대한 새로운 통찰력을 제공합니다.