본 논문은 대규모 언어 모델(LLM)의 전략적 추론 능력 향상을 위해 강화 학습(RL)을 체스 게임에 적용한 연구이다. 체스 사전 학습된 행동-가치 네트워크를 활용하여 LLM의 출력 수의 질에 대한 밀집 보상을 제공하는 지식 증류 방식을 사용하였다. 실험 결과, 밀집 보상이 희소 이진 보상보다 성능이 우수한 것으로 나타났지만, 모든 모델이 전문가 수준에는 크게 미치지 못하는 한계를 보였다. 사전 학습된 모델의 체스에 대한 내적 이해 부족이 주요 원인이며, RL만으로는 이를 완전히 극복할 수 없음을 시사하는 결과를 제시한다. 코드는 깃허브에 공개되어 있다.