본 논문에서는 대규모 기초 모델의 압축을 위한 새로운 방법인 OATS를 제시합니다. OATS는 입력 임베딩의 두 번째 모멘트 정보를 활용하여 모델 가중치를 희소 행렬과 저차원 행렬의 합으로 분해합니다. 재훈련 없이 Llama-3, Phi-3, ViT, DINOv2와 같은 대규모 언어 모델과 비전 트랜스포머를 최대 60%까지 압축하면서 최첨단 성능을 달성합니다. 또한, 유사하게 가지치기된 모델에 비해 최대 1.37배의 CPU 가속화를 제공합니다. 기존의 가지치기 기법들이 압축률 증가에 따라 성능 저하가 발생하는 것과 달리, OATS는 높은 압축률에도 성능 저하를 최소화합니다.