दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आरएल न तो रामबाण है और न ही मृगतृष्णा: एलएलएम के लिए पर्यवेक्षित बनाम सुदृढीकरण सीखने की बारीकियां समझना

Created by
  • Haebom

लेखक

हैंगज़ान जिन, सिचेंग लव, सिफान वू, मोहम्मद हमदाका

रूपरेखा

यह पत्र एक 24-बिंदु कार्ड गेम के आउट-ऑफ-डिस्ट्रीब्यूशन संस्करण और एक उपन्यास स्पेक्ट्रम-आधारित डायग्नोस्टिक का उपयोग करके मॉडल प्रतिनिधित्व और आउट-ऑफ-डिस्ट्रीब्यूशन (OOD) प्रदर्शन पर पर्यवेक्षित लर्निंग फाइन-ट्यूनिंग (SFT) और सुदृढीकरण लर्निंग फाइन-ट्यूनिंग (RL-FT), बड़े पैमाने पर भाषा मॉडल (LLM) के लिए प्रशिक्षण के बाद के तरीकों के प्रभावों की फिर से जांच करता है। प्रमुख निष्कर्षों में शामिल हैं: RL-FT, SFT के कारण होने वाले OOD प्रदर्शन में गिरावट को काफी हद तक ठीक कर सकता है, लेकिन जब SFT गंभीर ओवरफिटिंग और महत्वपूर्ण वितरणात्मक बदलावों को प्रेरित करता है, तो OOD प्रदर्शन को पूरी तरह से ठीक करने में विफल रहता है। एकवचन वैक्टर की दिशा में परिवर्तन एकवचन मूल्यों के परिमाण से अधिक महत्वपूर्ण हैं मज़बूत SFT चेकपॉइंट बेहतर RL-आधारित पुनर्निर्माण को सक्षम बनाते हैं, लेकिन ओवरफ़िटेड चेकपॉइंट पुनर्निर्माण के लिए प्रतिरोधी होते हैं। इस अध्ययन के परिणाम RL के बेहतर OOD प्रदर्शन पर पिछली रिपोर्टों से मेल खाते हैं। RL मुख्य रूप से SFT के कारण होने वाले दिशात्मक विचलन को संबोधित करता है, न कि कोई नया समाधान खोजने पर। स्पेक्ट्रल-अवेयर विश्लेषण सस्ती पुनर्स्थापना विधियों (निम्न-आयामी UV विलय और उथली परत पुनर्संरचना) पर प्रकाश डालता है जिनका उपयोग चिकित्सक महंगी RL फ़ाइन-ट्यूनिंग से पहले कर सकते हैं।

Takeaways, Limitations

Takeaways:
हम पुष्टि करते हैं कि RL-FT, SFT के कारण होने वाली OOD प्रदर्शन गिरावट को महत्वपूर्ण रूप से ठीक कर सकता है।
एकवचन सदिशों की दिशा में परिवर्तन का OOD प्रदर्शन पर अधिक महत्वपूर्ण प्रभाव पड़ता है।
कम-आयामी और उथली बहाली तकनीकों के माध्यम से लागत-प्रभावी ढंग से OOD प्रदर्शन में सुधार करना।
मजबूत एसएफटी चेकपॉइंट आरएल-एफटी की प्रभावशीलता को बढ़ाते हैं।
आरएल-एफटी नए समाधान नहीं खोजता, बल्कि मुख्य रूप से एसएफटी के कारण होने वाले दिशात्मक बदलाव को संबोधित करता है।
Limitations:
जब SFT गंभीर ओवरफिटिंग और वितरणात्मक बदलाव का कारण बनता है, तो RL-FT OOD प्रदर्शन को पूरी तरह से पुनर्प्राप्त नहीं कर सकता है।
प्रस्तावित निम्न-आयामी और उथली पुनर्स्थापन तकनीकों के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
यह निर्धारित करने के लिए आगे सत्यापन की आवश्यकता है कि क्या विश्लेषण में प्रयुक्त 24-बिंदु कार्ड गेम के वितरणात्मक विविधताओं को अन्य कार्यों के लिए सामान्यीकृत किया जा सकता है।
👍