En este artículo, proponemos ThinkLogit, un método novedoso para mejorar la capacidad de inferencia a largo plazo de los modelos de inferencia a gran escala (LRM). ThinkLogit es un enfoque basado en el tiempo de decodificación que mejora la capacidad de inferencia a largo plazo de un modelo a gran escala (modelo objetivo) mediante el uso de un modelo pequeño (modelo guía) mediante operaciones logit. Además, proponemos ThinkLogit-DPO, que entrena el modelo guía mediante la optimización de preferencias utilizando pares de inferencia correctos/incorrectos. Los resultados experimentales muestran que cuando el modelo Qwen2.5-32B es guiado por R1-Distill-Qwen-1.5B (un modelo 21 veces más pequeño), ThinkLogit y ThinkLogit-DPO mejoran la respuesta a la primera prueba (pass@1) en un 26% y un 29% en cuatro conjuntos de datos matemáticos, respectivamente. Además, ThinkLogit transfiere las habilidades de inferencia a largo plazo obtenidas mediante aprendizaje por refuerzo para mejorar la respuesta a la primera prueba (pass@1) en un 13% en comparación con el modelo base Qwen2.5-32B. Esto presenta un método computacionalmente eficiente para inducir inferencias a largo plazo en modelos a gran escala sin aprendizaje adicional o con un aprendizaje mínimo.