Sign In

Self-Training Elicits Concise Reasoning in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Tergel Munkhbat, Namgyu Ho, Seo Hyun Kim, Yongjin Yang, Yujin Kim, Se-Young Yun

개요

본 논문은 사고연쇄(Chain-of-thought, CoT) 추론을 사용하는 대규모 언어 모델(LLM)이 복잡한 과제를 해결하기 위해 중간 토큰을 통해 추가적인 계산을 활용하지만, 일반적인 추론 과정에는 많은 중복 토큰이 포함되어 불필요한 추론 비용이 발생한다는 점을 지적합니다. 연구진은 현재 LLM의 출력 분포를 조사하여 기본 동작에 비해 더 간결하게 추론할 수 있는 잠재적인 능력을 발견했습니다. 이러한 능력을 유도하기 위해, 과제별 설정에서 최적 N 샘플링 및 몇 번의 샷 조건화를 통해 얻은 자체 생성된 간결한 추론 경로를 활용하는 간단한 미세 조정 방법을 제안합니다. 제안된 방법은 GSM8K 및 MATH에서 5가지 모델 계열에 걸쳐 평균적으로 출력 토큰을 30% 줄이면서 평균 정확도를 유지합니다. LLM의 기본적인 확률성과 문맥 내 학습 기능을 활용하여 광범위한 모델(사후 훈련이 광범위하게 이루어진 모델 포함)에서 간결한 추론을 강력하게 유도하는 자기 훈련 방식을 제시합니다.

시사점, 한계점

시사점:
LLM의 간결한 추론 능력을 활용하여 추론 비용을 30% 절감할 수 있는 효과적인 방법을 제시했습니다.
다양한 모델 및 과제에 적용 가능한 범용적인 자기 훈련 방식을 제안했습니다.
LLM의 잠재적인 능력을 활용하여 효율성을 높일 수 있는 가능성을 보여주었습니다.
한계점:
제시된 방법의 효과는 특정 데이터셋(GSM8K 및 MATH)과 모델에 국한될 수 있습니다.
다른 유형의 과제나 모델에 대한 일반화 성능은 추가적인 연구가 필요합니다.
간결한 추론이 항상 정확도를 유지하는 것은 아닐 수 있습니다. 정확도와 간결성 사이의 절충점을 찾는 추가적인 연구가 필요합니다.
👍