Think Before You Prune: Self-Reflective Structured Pruning for Reasoning Language Models
Created by
Haebom
Category
Empty
저자
Ziyan Wang, Enmao Diao, Qi Le, Pu Wang, Guanchu Wang, Minwoo Lee, Shu-ping Yeh, Li Yang
개요
본 논문은 추론 LLM (Reasoning LLMs, RLMs)의 비용 절감을 위해 프루닝 기법을 적용하는 연구를 제시한다. 기존 프루닝 방법론들이 RLM의 추론 일관성을 심각하게 훼손하는 문제를 분석하고, 모델 자체 생성 추론 흔적을 활용한 RESP (self-reflective structured pruning) 프레임워크를 제안한다. RESP는 자기 생성 보정, 디코드 전용 기울기 기반 중요도 추정, 점진적 재생성을 통해 프루닝 결정을 모델의 추론 동역학과 일치시킨다. Qwen3-8B 모델에 대한 실험을 통해 RESP가 기존 프루닝 방법론보다 월등한 성능을 보임을 입증했다.
시사점, 한계점
•
시사점:
◦
RLM 프루닝 시 모델 자체 생성 추론 흔적을 활용한 보정이 중요함을 발견.
◦
RESP 프레임워크를 통해 RLM의 추론 능력을 유지하면서 모델 크기를 효과적으로 줄일 수 있음을 입증.
◦
GSM8K 및 MathQA 데이터셋에서 기존 방법론 대비 뛰어난 성능 향상 달성.
•
한계점:
◦
특정 RLM (Qwen3-8B)에 대한 실험 결과만 제시. 다른 모델 및 데이터셋에 대한 일반화 가능성은 추가 연구 필요.
◦
RESP 프레임워크의 성능을 다른 RLM 아키텍처 및 프루닝 기법과 비교 분석한 결과에 대한 깊이 있는 분석 부족.