दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सीखे गए पुरस्कार कार्यों को अनुकूलित करने के खतरे: कम प्रशिक्षण त्रुटि कम पछतावे की गारंटी नहीं देती

Created by
  • Haebom

लेखक

लुकास फ़्लुरी, लियोन लैंग, एलेसेंड्रो एबेट, पैट्रिक फ़ोरे , डेविड क्रुएगर, जोअर स्केल्से

रूपरेखा

सुदृढीकरण अधिगम में, इच्छित क्रिया को दर्शाने वाला एक पुरस्कार फलन निर्दिष्ट करना बहुत कठिन हो सकता है। पुरस्कार अधिगम एक पुरस्कार फलन सीखकर इस समस्या का समाधान करने का प्रयास करता है। हालाँकि, सीखा गया पुरस्कार मॉडल डेटा वितरण में कम त्रुटियों वाली नीतियाँ उत्पन्न कर सकता है, लेकिन फिर बड़े पछतावे उत्पन्न कर सकता है। हम कहते हैं कि ऐसे पुरस्कार मॉडल त्रुटि-पछतावे असंगति से ग्रस्त हैं। त्रुटि-पछतावे असंगति का मुख्य कारण वितरण परिवर्तन है जो आमतौर पर नीति अनुकूलन के दौरान होता है। इस पत्र में, हम गणितीय रूप से दर्शाते हैं कि जहाँ पुरस्कार मॉडल कम सबसे खराब स्थिति वाले पछतावे के लिए पर्याप्त रूप से कम अपेक्षित परीक्षण त्रुटि की गारंटी देता है, वहीं ऐसे यथार्थवादी डेटा वितरण भी हैं जहाँ किसी भी निश्चित अपेक्षित परीक्षण त्रुटि के लिए त्रुटि-पछतावा असंगति हो सकती है। फिर हम दर्शाते हैं कि RLHF जैसी विधियों में सामान्यतः प्रयुक्त नीति नियमन तकनीकों का उपयोग करने पर भी समान समस्याएँ बनी रहती हैं। हमें आशा है कि हमारे परिणाम पुरस्कार मॉडलों को सीखने के बेहतर तरीकों और उनकी गुणवत्ता को विश्वसनीय रूप से मापने के बेहतर तरीकों पर सैद्धांतिक और अनुभवजन्य शोध को प्रोत्साहित करेंगे।

Takeaways, Limitations

Takeaways: हमने गणितीय रूप से सिद्ध किया है कि किसी पुरस्कार मॉडल की कम अपेक्षित परीक्षण त्रुटि हमेशा कम पछतावे की गारंटी नहीं देती, और यह कि एक त्रुटि-पछतावा बेमेल समस्या होती है। हमने दिखाया कि नीति-नियमन तकनीकें भी इस समस्या का पूरी तरह से समाधान नहीं कर सकतीं। इससे पुरस्कार मॉडल के सीखने और मूल्यांकन के तरीकों में सुधार पर शोध की आवश्यकता का संकेत मिलता है।
Limitations: यह शोधपत्र सैद्धांतिक विश्लेषण पर केंद्रित है और वास्तविक डेटासेट या एल्गोरिदम पर प्रायोगिक सत्यापन प्रदान नहीं करता है। साथ ही, यह त्रुटि-अफसोस बेमेल समस्या को हल करने के लिए कोई विशिष्ट कार्यप्रणाली प्रदान नहीं करता है।
👍