Cet article propose R-Stitch, une nouvelle méthode permettant de réduire le coût de calcul de l'inférence par chaîne de pensée (CoT). L'inférence CoT améliore la capacité de résolution de problèmes des modèles de langage à grande échelle (LLM), mais elle est coûteuse en calculs en raison de son décodage autorégressif des longues séquences de jetons. Les stratégies d'accélération existantes réduisent la longueur des séquences grâce à des mécanismes d'arrêt précoce ou de compensation de compression, ou améliorent la vitesse de décodage grâce au décodage prédictif utilisant des modèles à petite échelle. Cependant, le décodage prédictif a une accélération limitée lorsque la concordance entre les modèles à petite et à grande échelle est faible, et ne parvient pas à exploiter les avantages potentiels des modèles à petite échelle pour générer des inférences intermédiaires concises. R-Stitch est un framework de décodage hybride basé sur la confiance au niveau des jetons, qui bascule entre les modèles de langage à petite et à grande échelle (SLM) et les modèles de langage à grande échelle (LLM), utilisant les LLM uniquement lorsque la confiance du SLM tombe en dessous d'un seuil, préservant ainsi efficacité et précision. Il est indépendant du modèle, ne nécessite aucune formation et est compatible avec les pipelines de décodage standard. Les expériences de référence d'inférence mathématique montrent que R-Stitch réduit la latence d'inférence jusqu'à 85 % avec une dégradation minimale de la précision.