Self-Training Elicits Concise Reasoning in Large Language Models
Created by
Haebom
저자
Tergel Munkhbat, Namgyu Ho, Seo Hyun Kim, Yongjin Yang, Yujin Kim, Se-Young Yun
개요
본 논문은 사고연쇄(Chain-of-thought, CoT) 추론을 사용하는 대규모 언어 모델(LLM)이 복잡한 작업을 해결하기 위해 중간 토큰을 통해 추가적인 계산을 활용하지만, 일반적인 추론 과정에는 많은 중복 토큰이 포함되어 불필요한 추론 비용이 발생한다는 점을 지적합니다. 연구진은 현재 LLM의 출력 분포를 조사하여 기본 동작과 비교하여 더 간결하게 추론할 수 있는 잠재적인 능력을 발견했습니다. 이 능력을 유도하기 위해, 연구진은 작업별 설정에서 최적 N개 샘플링과 소수 샷 조건화를 통해 얻은 자체 생성된 간결한 추론 경로를 활용하는 간단한 미세 조정 방법을 제안합니다. 제안된 방법은 GSM8K 및 MATH에서 5개의 모델 계열에 걸쳐 평균적으로 출력 토큰을 30% 줄이면서 평균 정확도를 유지합니다. LLM의 기본적인 확률적 특성과 문맥 내 학습 기능을 활용하여, 이 자기 학습 방식은 광범위한 모델(사후 훈련이 광범위하게 수행된 모델 포함)에서 간결한 추론을 견고하게 유도합니다. 코드는 https://github.com/TergelMunkhbat/concise-reasoning 에서 확인할 수 있습니다.