Dans cet article, nous proposons un nouveau cadre d'apprentissage appelé SmartThinker pour remédier au coût de calcul excessif du processus d'inférence des modèles d'inférence à grande échelle (MRL). Le système actuel de pénalité de longueur globale présente le problème de condenser excessivement les étapes d'inférence aux étapes critiques. SmartThinker résout ce problème grâce à un cadre d'apprentissage en deux étapes qui ajuste finement la longueur de la chaîne d'inférence en fonction de l'importance de chaque étape. Dans la première étape, le modèle est adapté au mode d'inférence raccourci par échantillonnage par rejet et réglage fin par apprentissage supervisé (SFT). Dans la deuxième étape, l'optimisation de la politique de contrôle de longueur étape par étape (SCPO) est appliquée pour augmenter la longueur des étapes critiques et réduire celle des étapes moins critiques, améliorant ainsi l'efficacité. SCPO se compose de quatre composants : un estimateur d'importance en ligne, une fonction de récompense de contrôle de longueur étape par étape, une estimation de l'avantage de généralisation étape par étape (S-GAE) et une stratégie de découpage adaptative à la difficulté. Les résultats expérimentaux sur plusieurs benchmarks d'inférence et divers modèles de base montrent que SmartThinker réduit considérablement l'inférence redondante tout en maintenant des performances similaires ou meilleures par rapport aux méthodes existantes.