본 논문은 Chain-of-Thought (CoT) 프롬프팅을 사용하는 대규모 언어 모델(LLM)의 추론 효율성을 높이기 위한 새로운 압축 프레임워크를 제안합니다. 단계 엔트로피라는 지표를 사용하여 추론 과정의 중복성을 측정하고, 엔트로피가 낮은 단계(중복된 단계)를 제거하는 방법을 제시합니다. 실험 결과, DeepSeek-R1-7B, 14B 및 Qwen3-8B 모델에서 엔트로피가 낮은 중간 단계의 80%를 제거해도 최종 정답 정확도 저하는 미미함을 보였습니다. 또한, 지도 학습 미세 조정(SFT)과 그룹 상대 정책 최적화(GRPO) 강화 학습을 결합한 2단계 학습 전략을 통해 LLM이 추론 중에 [SKIP] 토큰을 전략적으로 사용하여 압축된 CoT를 생성하도록 학습시키는 방법을 제안합니다. 이를 통해 정확도를 유지하면서 LLM의 추론 효율성을 크게 향상시킬 수 있습니다.
시사점, 한계점
•
시사점:
◦
CoT 프롬프팅 기반 LLM의 추론 효율성을 획기적으로 높일 수 있는 새로운 방법 제시.
◦
단계 엔트로피 기반 중복 단계 제거를 통해 계산 비용 절감 및 효율 증대 가능성 제시.
◦
2단계 학습 전략을 통해 LLM이 스스로 압축된 CoT를 생성하도록 학습 가능.
◦
실제 LLM 배포 및 추론 구조에 대한 이해 증진에 기여.
•
한계점:
◦
제안된 방법의 효과가 특정 모델 및 벤치마크에 국한될 가능성 존재.
◦
[SKIP] 토큰 사용 전략의 일반화 및 다양한 문제 유형에 대한 적용 가능성 검증 필요.