Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL

Created by
  • Haebom

저자

Songjun Tu, Jiahao Lin, Qichao Zhang, Xiangyu Tian, Linjing Li, Xiangyuan Lan, Dongbin Zhao

개요

본 논문은 대규모 추론 모델(LRM)의 과도한 추론(over-thinking) 문제를 해결하기 위해 적응적 사고 능력을 부여하는 방법을 제시합니다. 단순 문제에 대한 과도한 계산 오버헤드 및 지연 시간을 줄이기 위해, 문제의 복잡도에 따라 명시적인 추론을 수행할지 여부를 동적으로 결정하는 기능을 LRM에 추가하는 것을 목표로 합니다. R1 스타일의 증류 모델을 기반으로, 프롬프트에 간단한 생략 부호("...")를 삽입하여 확률적으로 사고 모드 또는 비사고 모드를 유발할 수 있음을 발견하고, 이를 활용하여 다단계 강화 학습(RL) 프레임워크인 AutoThink를 제안합니다. AutoThink는 단순 작업에는 간결한 응답을 기본으로 하면서 필요한 경우에만 명시적인 추론을 호출하도록 학습합니다. 다섯 가지 주요 수학 벤치마크에 대한 실험 결과, AutoThink는 최근의 프롬프트 및 RL 기반 가지치기 방법과 비교하여 유리한 정확도-효율성 절충안을 달성함을 보여줍니다. 증류된 모델과 추가적으로 미세 조정된 변형을 포함한 모든 R1 스타일 모델에 원활하게 통합될 수 있으며, 특히 DeepSeek-R1-Distill-Qwen-1.5B에서 상대적 정확도를 6.4% 향상시키면서 토큰 사용량을 52% 줄였습니다.

시사점, 한계점

시사점:
LRM의 과도한 추론 문제를 효과적으로 해결하는 새로운 방법 제시.
문제 복잡도에 따라 적응적으로 추론 전략을 선택하는 AutoThink 프레임워크 개발.
정확도와 효율성 간의 균형을 개선하여 LRM의 성능 향상.
R1 스타일 모델에 쉽게 통합 가능한 확장성 있는 방법.
실제 수학 문제 벤치마크에서 상당한 성능 향상을 입증.
한계점:
AutoThink는 R1 스타일 모델에 특화되어 다른 유형의 LRM에는 적용 가능성이 제한적일 수 있음.
"…"과 같은 간단한 프롬프트 수정에 의존하는 방법의 일반화 가능성에 대한 추가적인 연구 필요.
다양한 문제 유형 및 복잡도에 대한 AutoThink의 로버스트니스에 대한 추가 검증 필요.
강화학습 기반이므로 학습 데이터 및 과정에 대한 추가적인 분석이 필요할 수 있음.
👍