Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning

Created by
  • Haebom
Category
Empty

저자

Jingyang Yi, Jiazheng Wang, Sida Li

개요

OpenAI o1 및 DeepSeek-R1과 같은 최신 모델은 확장된 CoT(Chain-of-Thought) 추론을 생성하여 추론 집약적인 작업에서 강력한 성능을 보였다. 하지만, 더 긴 추론은 복잡한 문제에 대한 해결책 탐색에 도움을 주지만, 비효율적이고 중복된 출력을 초래한다. 본 논문에서는 ShorterBetter를 제안하는데, 이는 추론 모델이 수동 감독 없이 자체적인 최적 CoT 길이를 학습할 수 있게 해주는 간단하면서도 효과적인 강화 학습 방법이다. Sample Optimal Length (SOL)를 여러 생성물 중 가장 짧고 정확한 응답의 길이로 정의하고, 이를 효율적인 추론을 위한 동적 보상 신호로 사용한다. DeepSeek-Distill-Qwen-1.5B/7B를 기반 모델로 적용한 결과, ShorterBetter는 정확도를 유지하면서 도메인 내 및 도메인 밖 추론 작업에서 출력 길이를 50%-80% 감소시켰다. 추론 분석 결과 ShorterBetter는 불필요한 반복, 과도한 자체 검증 및 과도한 대안 탐색을 줄여 추론 추론의 구조를 개선했다.

시사점, 한계점

ShorterBetter는 강화 학습을 통해 모델이 자체적으로 최적의 CoT 길이를 학습하도록 하여 추론 효율성을 향상시켰다.
DeepSeek-Distill-Qwen-1.5B/7B 모델에 적용하여 출력 길이를 대폭 감소시키면서 정확도를 유지했다.
불필요한 반복, 과도한 자체 검증, 과도한 대안 탐색을 줄여 추론 추론의 구조를 개선했다.
SOL(Sample Optimal Length)을 동적 보상 신호로 사용하여 효율적인 추론을 유도하는 방법을 제시했다.
(한계점은 논문에 명시되지 않음)
👍