Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Reasoning Meets Compression: Benchmarking Compressed Large Reasoning Models on Complex Reasoning Tasks

Created by
  • Haebom

저자

Nan Zhang, Yusen Zhang, Prasenjit Mitra, Rui Zhang

개요

본 논문은 최근 등장한 오픈소스 대규모 추론 모델(LRMs)의 높은 성능에도 불구하고, 그 크기로 인한 높은 비용 문제를 해결하기 위해 압축된 LLMs의 추론 성능을 체계적으로 분석합니다. 기존의 양자화, 가지치기, 지식 증류 연구는 주로 언어 모델링 성능 유지에 초점을 맞추었지만, 본 연구는 추론 난이도 및 압축이 지식과 추론에 미치는 영향을 종합적으로 평가합니다. DeepSeek-R1 모델을 대상으로 양자화, 지식 증류, 가지치기 방법을 적용하여 AIME 2024, FOLIO, BIG-Bench Hard의 시간적 순서 데이터, MuSiQue 등 다양한 추론 데이터셋에서 성능을 벤치마킹합니다. 특히 MuSiQue를 사용하여 매개변수 수가 LRM의 지식 암기에는 추론 능력보다 더 큰 영향을 미친다는 것을 발견하고, 테스트 시간 계산량 분석을 통해 짧은 모델 출력이 여러 벤치마크에서 더 나은 성능을 보인다는 것을 확인합니다.

시사점, 한계점

시사점:
LLM 압축 기술(양자화, 지식 증류, 가지치기)이 LRM의 추론 성능에 미치는 영향에 대한 체계적인 분석을 제공합니다.
매개변수 수가 LRM의 지식 암기에는 추론 능력보다 더 큰 영향을 미친다는 것을 밝혀, 압축 기술 선택에 대한 시사점을 제공합니다.
짧은 모델 출력이 여러 벤치마크에서 더 나은 성능을 보임을 확인하여, 보다 간결한 추론 체인의 필요성을 강조합니다.
다양한 추론 난이도의 데이터셋을 사용하여 압축된 LRM의 성능을 다각적으로 평가합니다.
한계점:
분석 대상 모델이 DeepSeek-R1 하나로 제한되어 일반화 가능성에 대한 의문이 남습니다.
다양한 압축 방법을 적용하였지만, 최적의 압축 방법 및 그 조합에 대한 심층적인 연구는 부족합니다.
실제 응용 환경에서의 성능 평가가 부족합니다.
👍