Dans cet article, nous proposons ThinkLogit, une nouvelle méthode pour améliorer la capacité d'inférence à long terme des modèles d'inférence à grande échelle (LRM). ThinkLogit est une approche de décodage qui améliore la capacité d'inférence à long terme d'un modèle à grande échelle (modèle cible) en utilisant un petit modèle (modèle guide) à l'aide d'opérations logit. De plus, nous proposons ThinkLogit-DPO, qui entraîne le modèle guide par optimisation des préférences en utilisant des paires d'inférence correctes/incorrectes. Les résultats expérimentaux montrent que lorsque le modèle Qwen2.5-32B est guidé par R1-Distill-Qwen-1.5B (un modèle 21 fois plus petit), ThinkLogit et ThinkLogit-DPO améliorent respectivement la performance pass@1 de 26 % et 29 % sur quatre jeux de données mathématiques. De plus, ThinkLogit transfère les compétences d'inférence à long terme obtenues par apprentissage par renforcement pour améliorer la performance pass@1 de 13 % par rapport au modèle de base Qwen2.5-32B. Il s’agit d’une méthode informatiquement efficace pour induire une inférence à long terme dans des modèles à grande échelle sans apprentissage supplémentaire ou avec un apprentissage minimal.