[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning

Created by
  • Haebom

저자

Jingyang Yi, Jiazheng Wang, Sida Li

개요

OpenAI o1 및 DeepSeek-R1과 같은 최근 모델은 확장된 사고연쇄(CoT) 추적을 생성하여 추론 집약적 작업에서 강력한 성능을 보여주었습니다. 더 긴 추론은 복잡한 문제에 대한 해결 경로를 철저히 탐색하는 데 도움이 되지만, 비효율적이고 중복된 출력으로 이어지는 과도한 사고라는 현상을 초래하기도 합니다. 본 논문에서는 ShorterBetter라는 간단하면서도 효과적인 강화 학습 방법을 제안합니다. 이 방법은 모델이 수동 감독 없이 자체 최적 CoT 길이를 학습할 수 있도록 합니다. 여러 생성물 중 가장 짧은 정답의 길이를 샘플 최적 길이(SOL)로 정의하여 모델이 효율적인 추론을 향하도록 안내하는 동적 보상 신호로 사용합니다. 기본 모델로 DeepSeek-Distill-Qwen-1.5B/7B에 적용된 ShorterBetter는 도메인 내 및 도메인 외 추론 작업 모두에서 출력 길이를 50%-80% 줄이면서 정확도를 유지합니다. 추론 추적 분석 결과, ShorterBetter는 불필요한 반복, 과도한 자체 검증 및 대안의 과도한 탐색을 줄임으로써 추론 추적의 구조를 개선합니다.

시사점, 한계점

시사점:
강화 학습을 통해 모델이 최적의 사고연쇄(CoT) 길이를 스스로 학습하도록 함으로써 추론 효율성을 크게 향상시킬 수 있음을 보여줌.
출력 길이를 획기적으로 줄이면서 정확도를 유지하는 효과적인 방법을 제시함.
불필요한 반복, 과도한 자체 검증 등 비효율적인 추론 과정을 줄이는 데 효과적임.
한계점:
SOL(Sample Optimal Length)을 정의하는 방식이 특정 문제 유형이나 모델에 편향될 가능성이 있음.
다양한 유형의 추론 문제에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
현재 DeepSeek-Distill-Qwen 모델에만 적용되었으므로 다른 모델에 대한 적용 가능성 및 성능 평가가 필요함.
👍