Dans cet article, nous présentons Self-Taught Lookahead (STL), une nouvelle méthode d'apprentissage auto-supervisé permettant de résoudre les difficultés liées à la récompense des bonnes réponses ou à la collecte de données de démonstration humaine pour les tâches d'inférence en plusieurs étapes. STL améliore le modèle de valeur pour guider efficacement la recherche basée sur le modèle de langage sans données étiquetées, en exploitant la dynamique des transitions d'état. En appliquant STL à un modèle de valeur ouvert pondéré comportant 8 milliards de paramètres, nous obtenons des performances équivalentes à celles du modèle de valeur GPT-4o. De plus, en utilisant des modèles de valeur spécialisés appris par STL avec un algorithme de recherche léger, nous obtenons des performances équivalentes à celles des méthodes coûteuses de recherche arborescente, avec un coût divisé par 10.