본 논문은 대규모 기초 모델의 높은 메모리 소모량과 연산 비용 문제를 해결하기 위해, 재훈련 없이 신경망을 압축하는 새로운 방법인 OATS를 제안합니다. OATS는 입력 임베딩의 두 번째 모멘트 정보를 활용하여 모델 가중치를 희소 행렬과 저랭크 행렬의 합으로 분해합니다. Llama-3, Phi-3, ViT, DINOv2와 같은 대규모 언어 모델과 비전 트랜스포머를 최대 60%까지 압축하면서 최첨단 성능을 달성하고, 비교 가능한 수준으로 가지치기된 모델보다 최대 1.37배의 CPU 가속을 제공합니다.