Sign In

OATS: Outlier-Aware Pruning Through Sparse and Low Rank Decomposition

Created by
  • Haebom
Category
Empty

저자

Stephen Zhang, Vardan Papyan

개요

본 논문에서는 대규모 기초 모델의 압축을 위한 새로운 방법인 OATS를 제시합니다. OATS는 입력 임베딩의 두 번째 모멘트 정보를 활용하여 모델 가중치를 희소 행렬과 저차원 행렬의 합으로 분해합니다. 재훈련 없이 Llama-3, Phi-3, ViT, DINOv2와 같은 대규모 언어 모델과 비전 트랜스포머를 최대 60%까지 압축하면서 최첨단 성능을 달성합니다. 또한, 유사하게 가지치기된 모델에 비해 최대 1.37배의 CPU 가속화를 제공합니다. 기존의 가지치기 기법들이 압축률 증가에 따라 성능 저하가 발생하는 것과 달리, OATS는 높은 압축률에도 성능 저하를 최소화합니다.

시사점, 한계점

시사점:
재훈련 없이 대규모 언어 모델 및 비전 트랜스포머를 효과적으로 압축할 수 있는 새로운 방법 제시.
기존 방법보다 높은 압축률에서도 우수한 성능 유지.
CPU 가속화를 통해 연산 효율 향상.
고비용의 메모리 소모 및 연산 문제 해결에 기여.
한계점:
OATS의 성능이 특정 모델 아키텍처나 데이터셋에 편향될 가능성.
다른 압축 기법과의 비교 분석이 더 필요.
압축률이 60%를 넘어서는 경우 성능 저하 가능성.
다양한 하드웨어 플랫폼에서의 성능 평가가 부족.
👍