본 논문은 최근 등장한 오픈소스 대규모 추론 모델(LRMs)의 높은 성능에도 불구하고, 그 크기로 인한 높은 비용 문제를 해결하기 위해 압축된 LLMs의 추론 성능을 체계적으로 분석합니다. 기존의 양자화, 가지치기, 지식 증류 연구는 주로 언어 모델링 성능 유지에 초점을 맞추었지만, 본 연구는 추론 난이도 및 압축이 지식과 추론에 미치는 영향을 종합적으로 평가합니다. DeepSeek-R1 모델을 대상으로 양자화, 지식 증류, 가지치기 방법을 적용하여 AIME 2024, FOLIO, BIG-Bench Hard의 시간적 순서 데이터, MuSiQue 등 다양한 추론 데이터셋에서 성능을 벤치마킹합니다. 특히 MuSiQue를 사용하여 매개변수 수가 LRM의 지식 암기에는 추론 능력보다 더 큰 영향을 미친다는 것을 발견하고, 테스트 시간 계산량 분석을 통해 짧은 모델 출력이 여러 벤치마크에서 더 나은 성능을 보인다는 것을 확인합니다.