Este artículo aplica el aprendizaje por refuerzo (AR) al ajedrez para mejorar la capacidad de razonamiento estratégico de los modelos de lenguaje a gran escala (MLG). Utilizamos un método de destilación de conocimiento que proporciona recompensas densas según la calidad de los resultados del MGL, aprovechando una red de acción-valor preentrenada en ajedrez. Los resultados experimentales muestran que las recompensas densas superan a las recompensas binarias dispersas, pero todos los modelos se quedan muy por debajo del rendimiento de un experto. Los resultados sugieren que la falta de comprensión del ajedrez por parte de los modelos preentrenados es la causa principal, y que el AR por sí solo no puede superar esta limitación. El código está disponible en GitHub.