दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्या बड़े भाषा मॉडल रणनीतिक तर्कशक्ति विकसित कर सकते हैं? शतरंज सीखने से प्रशिक्षण के बाद की अंतर्दृष्टि

Created by
  • Haebom

लेखक

डोंगयून ह्वांग, होजून ली, जेगुल चू, डोंगमिन पार्क, जोंगहो पार्क

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) की रणनीतिक तर्क क्षमता को बेहतर बनाने के लिए शतरंज के खेल में सुदृढीकरण अधिगम (आरएल) का प्रयोग करता है। हम एक ज्ञान आसवन विधि का उपयोग करते हैं जो शतरंज पर पूर्व-प्रशिक्षित क्रिया-मूल्य नेटवर्क का लाभ उठाते हुए, एलएलएम के आउटपुट की गुणवत्ता के लिए सघन पुरस्कार प्रदान करती है। प्रायोगिक परिणाम दर्शाते हैं कि सघन पुरस्कार विरल बाइनरी पुरस्कारों से बेहतर प्रदर्शन करते हैं, लेकिन सभी मॉडल विशेषज्ञ-स्तर के प्रदर्शन से बहुत पीछे रह जाते हैं। परिणाम बताते हैं कि पूर्व-प्रशिक्षित मॉडलों में शतरंज की समझ की कमी इसका मुख्य कारण है, और अकेले आरएल इस सीमा को पूरी तरह से दूर नहीं कर सकता। कोड GitHub पर उपलब्ध है।

Takeaways, Limitations

Takeaways: हमने शतरंज के खेल के माध्यम से एलएलएम की रणनीतिक तर्क क्षमता को बढ़ाने के लिए आरएल की प्रयोज्यता को प्रमाणित किया। हमने ज्ञान आसवन-आधारित सघन पुरस्कारों की प्रभावशीलता की पुष्टि की।
Limitations: कोई भी मॉडल विशेषज्ञ-स्तर का प्रदर्शन नहीं कर पाया। पूर्व-प्रशिक्षित मॉडलों में शतरंज की आंतरिक समझ की कमी ने RL सीखने की सीमाओं को उजागर किया। इससे पता चलता है कि अकेले RL, LLM की रणनीतिक तर्क क्षमताओं को पूरी तरह से विकसित करने में सक्षम नहीं है।
👍