यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) की रणनीतिक तर्क क्षमता को बेहतर बनाने के लिए शतरंज के खेल में सुदृढीकरण अधिगम (आरएल) का प्रयोग करता है। हम एक ज्ञान आसवन विधि का उपयोग करते हैं जो शतरंज पर पूर्व-प्रशिक्षित क्रिया-मूल्य नेटवर्क का लाभ उठाते हुए, एलएलएम के आउटपुट की गुणवत्ता के लिए सघन पुरस्कार प्रदान करती है। प्रायोगिक परिणाम दर्शाते हैं कि सघन पुरस्कार विरल बाइनरी पुरस्कारों से बेहतर प्रदर्शन करते हैं, लेकिन सभी मॉडल विशेषज्ञ-स्तर के प्रदर्शन से बहुत पीछे रह जाते हैं। परिणाम बताते हैं कि पूर्व-प्रशिक्षित मॉडलों में शतरंज की समझ की कमी इसका मुख्य कारण है, और अकेले आरएल इस सीमा को पूरी तरह से दूर नहीं कर सकता। कोड GitHub पर उपलब्ध है।