Cet article applique l'apprentissage par renforcement (RL) au jeu d'échecs afin d'améliorer la capacité de raisonnement stratégique des modèles de langage à grande échelle (MLL). Nous utilisons une méthode de distillation des connaissances qui offre des récompenses denses pour la qualité des résultats du LLM, en exploitant un réseau action-valeur pré-entraîné sur les échecs. Les résultats expérimentaux montrent que les récompenses denses surpassent les récompenses binaires clairsemées, mais tous les modèles sont loin d'atteindre des performances de niveau expert. Les résultats suggèrent que le manque de compréhension des échecs par les modèles pré-entraînés en est la cause principale, et que l'apprentissage par renforcement seul ne peut pas totalement surmonter cette limitation. Le code est disponible sur GitHub.