Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning
Created by
Haebom
저자
Yang He, Xiao Ding, Bibo Cai, Yufei Zhang, Kai Xiong, Zhouhao Sun, Bing Qin, Ting Liu
개요
본 논문은 추론 증강 대규모 언어 모델(RLLM)의 과도한 토큰 소비 문제를 해결하기 위해, 모델의 능력을 추정하여 일반 모드와 추론 모드를 동적으로 선택하는 Self-Route 프레임워크를 제안합니다. Self-Route는 사전 추론 단계에서 능력 인식 임베딩을 추출하여 모델의 문제 해결 능력을 실시간으로 평가하고, 모델 난이도 추정 기반 데이터셋 Gradient-10K를 이용하여 정확한 능력 경계를 탐지하도록 라우터를 학습시킵니다. 다양한 벤치마크에서 기존 추론 모델과 유사한 정확도를 유지하면서 토큰 소비량을 30-55% 감소시키는 효과를 보였으며, 모델 크기나 추론 방식에 관계없이 일관된 효과를 보임으로써 일반적인 적용 가능성과 실용적인 가치를 입증합니다.
시사점, 한계점
•
시사점:
◦
RLLM의 비효율적인 토큰 소비 문제를 효과적으로 해결하는 새로운 프레임워크 제시
◦
모델의 능력을 실시간으로 평가하여 일반 모드와 추론 모드를 동적으로 선택하는 효율적인 전략 제시