Chain-of-thought (CoT)를 활용한 대규모 언어 모델(LLM)의 문제 해결 능력 향상은 높은 추론 비용을 발생시킵니다. R-Stitch는 SLM과 LLM 간의 계산을 위임하기 위해 토큰 수준 엔트로피를 불확실성 지표로 활용하는 훈련 없는 하이브리드 디코딩 프레임워크를 제시합니다. R-Stitch는 엔트로피가 높은 토큰을 LLM에 위임하여 전체 롤백을 방지하고 정답 품질을 유지합니다. R-Stitch$^{+}$는 고정된 임계값을 넘어 토큰 예산을 동적으로 조정하는 적응형 라우팅 정책을 학습합니다. 이 방법은 토큰별 디코딩 복잡성과 생성된 토큰 수를 줄여 상당한 속도 향상을 달성하면서도 정확도 손실을 최소화합니다. DeepSeek-R1-Distill-Qwen-7B에서 최대 3.00배, 14B에서 3.85배, QWQ-32B에서 4.10배의 속도 향상을 달성했습니다. 또한 재훈련 없이 다양한 계산 예산에 맞게 조정 가능한 적응형 효율성-정확도 트레이드 오프를 가능하게 합니다.