En este artículo, proponemos un nuevo marco llamado SmartThinker para abordar el excesivo coste computacional en el proceso de inferencia de modelos de inferencia a gran escala (LRM). El esquema actual de penalización de longitud global presenta el problema de condensar excesivamente los pasos de inferencia a los críticos. SmartThinker aborda este problema mediante un marco de aprendizaje en dos etapas que ajusta la longitud de la cadena de inferencia según la importancia de cada paso. En la primera etapa, el modelo se adapta al modo de inferencia acortado mediante muestreo de rechazo y ajuste fino de aprendizaje supervisado (SFT). En la segunda etapa, se aplica la optimización de la política de control de longitud paso a paso (SCPO) para aumentar la longitud de los pasos críticos y reducir la longitud de los pasos menos críticos, mejorando así la eficiencia. SCPO consta de cuatro componentes: un estimador de importancia en línea, una función de recompensa de control de longitud paso a paso, una estimación de la ventaja de generalización paso a paso (S-GAE) y una estrategia de recorte adaptativa a la dificultad. Los resultados experimentales en varios puntos de referencia de inferencia y varios modelos de red troncal muestran que SmartThinker reduce significativamente la inferencia redundante y mantiene un rendimiento similar o mejor en comparación con los métodos existentes.