दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आरएल के लिए आपका रिवॉर्ड फ़ंक्शन, खोज के लिए आपका सर्वश्रेष्ठ पीआरएम है: आरएल और खोज-आधारित टीटीएस को एकीकृत करना

Created by
  • Haebom

लेखक

कैन जिन, यांग झोउ, किक्सिन झांग, होंगवु पेंग, डि झांग, मार्को पावोन, लिगॉन्ग हान, झांग-वेई होंग, टोंग चे, दिमित्रिस एन मेटाक्सस

रूपरेखा

यह पत्र AIRL-S प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) के परीक्षण-समय स्केलिंग (TTS) के लिए एक नया दृष्टिकोण है। मौजूदा सुदृढीकरण सीखने (RL)-आधारित और खोज-आधारित विधियों की सीमाओं को पार करने के लिए, हम खोज के लिए प्रक्रिया इनाम मॉडल (PRM) के रूप में RL सीखने के दौरान सीखे गए इनाम कार्यों का उपयोग करने का विचार प्रस्तावित करते हैं। विशेष रूप से, हम सही उत्तर अनुमान प्रक्रिया से एक सघन और गतिशील PRM सीखने के लिए प्रतिकूल व्युत्क्रम सुदृढीकरण सीखने (AIRL) और समूह-सापेक्ष नीति अनुकूलन (GRPO) को जोड़ते हैं। यह PRM एक साथ अनुमान के दौरान RL रोलआउट के मूल्यांकनकर्ता और खोज प्रक्रिया को प्रभावी ढंग से निर्देशित करने के लिए एक अनुमानी के रूप में कार्य करता है, जिससे मजबूत अनुमान स्केलिंग सक्षम होती है, इनाम हैकिंग को कम किया जाता है, और विविध कार्यों में सामान्यीकरण में सुधार होता है। इसके अलावा, जब विभिन्न खोज एल्गोरिदम में एकीकृत किया जाता है, तो हमारा दृष्टिकोण मौजूदा लेबल किए गए डेटा पर प्रशिक्षित पीआरएम से लगातार बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
हम दिखाते हैं कि आरएल सीखने के दौरान प्राप्त इनाम फ़ंक्शन खोज के लिए इष्टतम पीआरएम हो सकता है।
हम लेबल की आवश्यकता वाले मध्यवर्ती प्रक्रिया डेटा के बिना एक कुशल और मजबूत टीटीएस विधि प्रस्तुत करते हैं।
विभिन्न खोज एल्गोरिदम के साथ संगतता व्यापक प्रयोज्यता प्रदान करती है।
मौजूदा तरीकों की तुलना में बेहतर प्रदर्शन और GPT-4o के स्तर पर प्रदर्शन हासिल किया।
रिवॉर्ड हैकिंग समस्या को कम करना और विभिन्न कार्यों के लिए सामान्यीकरण प्रदर्शन में सुधार करना।
Limitations:
AIRL-S का प्रदर्शन विशिष्ट बेंचमार्क या कार्यों तक सीमित हो सकता है।
अन्य आर.एल. एल्गोरिदम या खोज एल्गोरिदम के साथ संगतता पर आगे अनुसंधान की आवश्यकता है।
बहुत बड़े एलएलएम पर लागू होने पर मापनीयता और दक्षता का और अधिक सत्यापन आवश्यक है।
प्रशिक्षण डेटा की गुणवत्ता पर निर्भरता पर आगे विश्लेषण की आवश्यकता है।
👍