Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning

Created by
  • Haebom

저자

Jingyang Yi, Jiazheng Wang, Sida Li

개요

본 논문은 OpenAI o1 및 DeepSeek-R1과 같은 최근 모델들이 Chain-of-Thought(CoT) 추적을 확장하여 추론 집약적 과제에서 강력한 성능을 보여주지만, 장황한 추론이 비효율적이고 중복적인 출력으로 이어지는 과잉 사고(overthinking) 현상을 야기한다는 점을 지적합니다. 이를 해결하기 위해, 본 논문에서는 ShorterBetter라는 강화 학습 방법을 제안합니다. ShorterBetter는 모델이 수동 감독 없이 최적의 CoT 길이를 학습하도록 합니다. 여러 생성물 중 가장 짧은 정답의 길이를 Sample Optimal Length(SOL)로 정의하고, 이를 동적 보상 신호로 사용하여 효율적인 추론을 유도합니다. DeepSeek-Distill-Qwen-1.5B/7B 모델에 적용한 결과, 도메인 내외의 추론 과제에서 출력 길이를 50%-80% 줄이면서 정확도를 유지했습니다. 추론 추적 분석을 통해 ShorterBetter가 불필요한 반복, 과도한 자기 검증, 대안의 과도한 탐색을 줄임으로써 추론 추적의 구조를 개선함을 보여줍니다.

시사점, 한계점

시사점:
과잉 사고 문제를 해결하는 효과적인 강화 학습 기법인 ShorterBetter 제시.
출력 길이 감소를 통한 계산 비용 절감 및 효율 향상.
정확도 유지하면서 추론 과정의 효율성 증대.
추론 과정의 구조적 개선을 통한 이해도 향상.
한계점:
SOL 정의가 특정 문제 유형에 편향될 가능성 존재.
다양한 모델 및 과제에 대한 일반화 성능 검증 필요.
ShorterBetter의 성능 향상이 특정 모델에 국한될 가능성.
복잡한 추론 과제에 대한 효과성 추가 검증 필요.
👍