Este artículo propone una novedosa estrategia de ajuste fino en dos pasos, «Think-How-to-Think» (TH2T), para abordar el problema de la inferencia excesiva en modelos de inferencia a gran escala (LRM). TH2T primero incorpora en el modelo la capacidad de reconocer el nivel de dificultad para ajustar la profundidad de la inferencia y, posteriormente, reduce la inferencia excesiva identificando y eliminando patrones innecesarios en etapas intermedias. Se entrena utilizando un conjunto de datos con una combinación de rutas de inferencia cortas y largas, y los resultados experimentales en los modelos 7B, 14B y 32B demuestran que mantiene el rendimiento a la vez que reduce los costos de inferencia en más del 70 % en tareas fáciles y en más del 40 % en tareas difíciles.