Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models

Created by
  • Haebom

저자

Nan Zhang, Eugene Kwek, Yusen Zhang, Ngoc-Hieu Nguyen, Prasenjit Mitra, Rui Zhang

개요

본 논문은 양자화, 증류, 가지치기와 같은 압축 기법이 대규모 추론 모델(LRM)의 계산 효율성을 어떻게 개선하는지 연구한다. 기존 연구의 한계를 보완하여, 세 가지 압축 기법을 모두 비교하고 심층적인 해석 분석을 수행한다. DeepSeek-R1 모델을 4개의 추론 데이터셋에서 벤치마킹하고, 활성화 기반의 fine-grained causal relationship 분석을 통해 압축이 추론 능력에 미치는 영향을 조사한다.

시사점, 한계점

시사점:
가중치 수는 추론보다 LRM의 지식 기억에 더 큰 영향을 미쳐, 가지치기와 증류의 위험성을 강조한다.
증류된 LRM의 마지막 레이어 MLP 업 프로젝션이 핵심 구성 요소 중 하나임을 밝혀, 중요한 가중치를 찾는 새로운 관점을 제시한다.
현재의 양자화 방법은 마지막 레이어 모듈과 MLP 게이트 프로젝션을 과도하게 압축하므로, 과도하게 압축된 가중치의 2%만 보호해도 평균 정확도를 크게 향상시킬 수 있다.
한계점:
구체적인 한계점은 논문 내용에서 직접적으로 언급되지 않음. (다만, 연구 범위나 방법론에 따른 잠재적 한계는 존재할 수 있음)
👍