로그인

DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights

작성자
  • Haebom
카테고리
비어 있음

저자

Liana Mikaelyan, Ayyoob Imani, Mathew Salvaris, Parth Pathak, Mohsen Fayyaz

개요

본 논문에서는 대규모 언어 모델(LLM)의 메모리 사용량을 줄이기 위한 새로운 사후 훈련 압축 기술인 DeltaLLM을 제시합니다. 연속적인 Transformer 블록 내 계층 간 가중치 공유와 이들 간 추가적인 저차원 차이 행렬을 사용하여 LLM을 구조화하는 대안적인 방법을 제안합니다. 훈련에는 진행 모듈 교체 방법을 채택하며, 약 30M-40M 토큰으로 저차원 모듈을 경량 훈련하는 것만으로도 처음부터 훈련된 동일한 크기의 LLM과 동등한 성능을 달성할 수 있음을 보여줍니다. 기존 Llama 및 Phi 모델 대비 매개변수를 12% 감소시킨 DeltaLLAMA 및 DeltaPHI 모델을 공개하며, 일반적인 지식 및 추론 벤치마크에서 기본 모델 성능의 90%를 유지합니다. 또한, 동일한 수의 매개변수를 제거한 JointDrop, LaCo, ShortGPT 및 SliceGPT 압축 기술보다 성능이 우수합니다. 예를 들어, 매개변수를 24% 감소시킨 DeltaPhi 2.9B는 복구 미세 조정된 SlicedPhi 3.3B (매개변수 12% 감소)와 유사한 평균 제로샷 정확도를 달성하지만, 약 400M 매개변수가 더 작고 미세 조정이 적용되지 않았습니다. 본 연구는 저장 공간이 중요할 때 LLM 아키텍처 설계 및 압축 방법에 대한 새로운 통찰력을 제공합니다.

시사점, 한계점

시사점:
LLM의 메모리 사용량을 효과적으로 줄이는 새로운 사후 훈련 압축 기술 DeltaLLM 제시.
기존 압축 기술보다 우수한 성능을 보임.
경량 훈련을 통해 훈련 비용 절감 가능성 제시.
LLM 아키텍처 설계 및 압축 방법에 대한 새로운 통찰력 제공.
한계점:
DeltaLLM의 성능 향상이 모든 종류의 LLM과 벤치마크에 대해 일반화될 수 있는지 추가적인 검증 필요.
더욱 대규모의 LLM에 적용했을 때의 성능 및 효율성 평가 필요.
30M-40M 토큰의 경량 훈련 데이터셋 구성에 대한 자세한 설명 부족.
압축으로 인한 성능 저하(10%)에 대한 추가적인 분석 필요.
👍