दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एक सरल "पुनः प्रयास" से बहु-मोड़ एलएलएम तर्क प्राप्त हो सकता है

Created by
  • Haebom

लेखक

लिचेंग लियू, जिहान वांग, लिंजी ली, चेनवेई जू, यिपिंग लू, हान लियू, अविरूप सिल, मैनलिंग ली

रूपरेखा

यह शोधपत्र बड़े पैमाने के अनुमान मॉडलों (LRMs) की बहु-दौर समस्या-समाधान क्षमता में सुधार पर केंद्रित है। मौजूदा सुदृढीकरण अधिगम (RL) विधियाँ सत्यापन योग्य पुरस्कारों का उपयोग करके एकल-दौर प्रतिमान में LRMs को प्रशिक्षित करती हैं, लेकिन इससे बहु-दौर समस्या-समाधान और प्रासंगिक प्रतिक्रिया-सुधार क्षमताएँ कमज़ोर हो जाती हैं। यह अध्ययन दर्शाता है कि केवल सरल एकल-प्रतिक्रिया (जैसे, "चलो फिर से प्रयास करते हैं") का उपयोग करके बहु-दौर RL प्रशिक्षण, एकल-दौर प्रदर्शन और बहु-दौर अनुमान प्रदर्शन, दोनों में सुधार कर सकता है। इसे प्राप्त करने के लिए, हम एक नवीन सुदृढीकरण अधिगम विधि, एकल-प्रतिक्रिया अवलोकन के रूप में (UFO), प्रस्तावित करते हैं, जो एकल-प्रतिक्रिया का उपयोग अवलोकनों के रूप में करती है और इसे मौजूदा एकल-दौर RL प्रशिक्षण सेटिंग्स पर आसानी से लागू किया जा सकता है। प्रायोगिक परिणाम दर्शाते हैं कि UFO का उपयोग करके RL प्रशिक्षण, एकल-दौर प्रदर्शन को बनाए रखते हुए बहु-दौर अनुमान सटीकता में 14% तक सुधार करता है, जिससे भाषा मॉडल बहु-दौर समस्याओं में प्रतिक्रिया के प्रति अधिक संवेदनशील हो जाते हैं। इसके अतिरिक्त, सही उत्तर तक पहुंचने के लिए आवश्यक राउंड की संख्या को कम करने और गलतियाँ होने पर विविध निष्कर्षों को प्रोत्साहित करने के लिए, हमने एक पुरस्कार संरचना तैयार की है जो मॉडल को प्रत्येक राउंड में सावधानीपूर्वक और विचारपूर्वक उत्तर उत्पन्न करने के लिए प्रोत्साहित करती है।

Takeaways, Limitations

Takeaways:
हम यह प्रदर्शित करते हैं कि सरल एक-आयामी फीडबैक भी बहु-थ्रेडेड समस्या-समाधान कौशल में सुधार कर सकता है।
हम एक यूएफओ विधि प्रस्तुत करते हैं जिसे मौजूदा एकल-राउंड आरएल प्रशिक्षण में आसानी से लागू किया जा सकता है।
बहु-थ्रेडेड अनुमान सटीकता में 14% तक सुधार करता है।
एकल-थ्रेडिंग प्रदर्शन को बनाए रखते हुए बहु-थ्रेडिंग समस्या-समाधान क्षमताओं में सुधार किया गया।
एक पुरस्कार संरचना तैयार करना जो सावधानीपूर्वक और विचारशील प्रतिक्रियाओं को प्रोत्साहित करे।
Limitations:
केवल एक-आयामी फीडबैक का उपयोग करके अधिक समृद्ध फीडबैक प्राप्त करने के तरीकों का पता लगाने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार की समस्याओं और एलआरएम के लिए सामान्यीकरण प्रदर्शन का मूल्यांकन करने की आवश्यकता है।
प्रस्तावित पुरस्कार संरचना के अनुकूलन और सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
👍