Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Self-Training Elicits Concise Reasoning in Large Language Models

Created by
  • Haebom

저자

Tergel Munkhbat, Namgyu Ho, Seo Hyun Kim, Yongjin Yang, Yujin Kim, Se-Young Yun

개요

본 논문은 사고연쇄(Chain-of-thought, CoT) 추론을 사용하는 대규모 언어 모델(LLM)이 복잡한 작업을 해결하기 위해 중간 토큰을 통해 추가적인 계산을 활용하지만, 일반적인 추론 과정에는 많은 중복 토큰이 포함되어 불필요한 추론 비용이 발생한다는 점을 지적합니다. 연구진은 현재 LLM의 출력 분포를 조사하여 기본 동작과 비교하여 더 간결하게 추론할 수 있는 잠재적인 능력을 발견했습니다. 이 능력을 유도하기 위해, 연구진은 작업별 설정에서 최적 N개 샘플링과 소수 샷 조건화를 통해 얻은 자체 생성된 간결한 추론 경로를 활용하는 간단한 미세 조정 방법을 제안합니다. 제안된 방법은 GSM8K 및 MATH에서 5개의 모델 계열에 걸쳐 평균적으로 출력 토큰을 30% 줄이면서 평균 정확도를 유지합니다. LLM의 기본적인 확률적 특성과 문맥 내 학습 기능을 활용하여, 이 자기 학습 방식은 광범위한 모델(사후 훈련이 광범위하게 수행된 모델 포함)에서 간결한 추론을 견고하게 유도합니다. 코드는 https://github.com/TergelMunkhbat/concise-reasoning 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
LLM의 추론 과정에서 발생하는 중복 토큰을 줄여 계산 비용을 효율적으로 절감할 수 있는 방법을 제시합니다.
최적 N개 샘플링과 소수 샷 조건화를 활용한 자기 학습 방식을 통해 다양한 LLM에서 간결한 추론을 유도할 수 있음을 보여줍니다.
평균 30%의 토큰 감소를 달성하면서 정확도를 유지하여 실용적인 효율성을 증명합니다.
한계점:
제안된 방법의 효과는 특정 작업 및 모델에 따라 다를 수 있습니다.
GSM8K 및 MATH 데이터셋에 대한 결과만 제시되어 일반화 가능성에 대한 추가 연구가 필요합니다.
자기 학습 방식의 훈련 과정에 대한 자세한 설명이 부족할 수 있습니다.
👍