본 논문은 양자화, 증류, 가지치기와 같은 압축 기법이 대규모 추론 모델(LRM)의 계산 효율성을 어떻게 개선하는지 연구한다. 기존 연구의 한계를 보완하여, 세 가지 압축 기법을 모두 비교하고 심층적인 해석 분석을 수행한다. DeepSeek-R1 모델을 4개의 추론 데이터셋에서 벤치마킹하고, 활성화 기반의 fine-grained causal relationship 분석을 통해 압축이 추론 능력에 미치는 영향을 조사한다.
시사점, 한계점
•
시사점:
◦
가중치 수는 추론보다 LRM의 지식 기억에 더 큰 영향을 미쳐, 가지치기와 증류의 위험성을 강조한다.
◦
증류된 LRM의 마지막 레이어 MLP 업 프로젝션이 핵심 구성 요소 중 하나임을 밝혀, 중요한 가중치를 찾는 새로운 관점을 제시한다.
◦
현재의 양자화 방법은 마지막 레이어 모듈과 MLP 게이트 프로젝션을 과도하게 압축하므로, 과도하게 압축된 가중치의 2%만 보호해도 평균 정확도를 크게 향상시킬 수 있다.
•
한계점:
◦
구체적인 한계점은 논문 내용에서 직접적으로 언급되지 않음. (다만, 연구 범위나 방법론에 따른 잠재적 한계는 존재할 수 있음)