Este artículo propone R-Stitch, un novedoso método para reducir el coste computacional de la inferencia de Cadena de Pensamiento (CoT). La inferencia CoT mejora la capacidad de resolución de problemas de los modelos de lenguaje a gran escala (LLM), pero es computacionalmente costosa debido a su decodificación autorregresiva de largas secuencias de tokens. Las estrategias de aceleración existentes reducen la longitud de la secuencia mediante esquemas de parada temprana o compensación de compresión, o mejoran la velocidad de decodificación mediante decodificación predictiva utilizando modelos a pequeña escala. Sin embargo, la decodificación predictiva tiene una aceleración limitada cuando la concordancia entre los modelos a pequeña y gran escala es baja, y no aprovecha los beneficios potenciales de los modelos a pequeña escala para generar inferencias intermedias concisas. R-Stitch es un marco de decodificación híbrido basado en la confianza a nivel de token que alterna entre modelos de lenguaje a pequeña escala (SLM) y modelos de lenguaje a gran escala (LLM), utilizando LLM solo cuando la confianza del SLM cae por debajo de un umbral, manteniendo así la eficiencia y la precisión. Es independiente del modelo, no requiere entrenamiento y es compatible con los canales de decodificación estándar. Experimentos de referencia de inferencia matemática demuestran que R-Stitch reduce la latencia de inferencia hasta en un 85 % con una degradación mínima de la precisión.