दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पाठ और कोड निर्माण में बड़े भाषा मॉडल के लिए एनसेंबल लर्निंग: एक सर्वेक्षण

Created by
  • Haebom

लेखक

मारी अशिगा, वेई जी, फैन वू, वर्दान वोस्कैनियन, फतेमे दीनमोहम्मदी, पॉल ब्रूक्स, जिंगज़ी गोंग, झेंग वांग

रूपरेखा

यह शोधपत्र जनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर्स (GPT) पर आधारित बड़े पैमाने के भाषा मॉडल (LLM) के लिए एनसेम्बलिंग तकनीकों का परीक्षण करता है। व्यक्तिगत LLM अक्सर असंगत आउटपुट उत्पन्न करते हैं और पूर्वाग्रह प्रदर्शित करते हैं, जिससे विविध भाषाई पैटर्नों का पर्याप्त रूप से प्रतिनिधित्व करने की उनकी क्षमता सीमित हो जाती है। इसके अलावा, कई शक्तिशाली LLM बंद-स्रोत हैं, जिससे डेटा गोपनीयता संबंधी चिंताओं के कारण उनके औद्योगिक अनुप्रयोग सीमित हो जाते हैं। पाठ निर्माण में उनकी सफलता के आधार पर, यह शोधपत्र कोड निर्माण के लिए LLM एनसेम्बल तकनीकों का परीक्षण करता है और उन्हें सात प्रमुख दृष्टिकोणों में वर्गीकृत करके उनकी क्षमताओं का विश्लेषण करता है: भारित विलय, ज्ञान संलयन, विशेषज्ञ मिश्रण, रिवॉर्ड एनसेम्बल, आउटपुट एनसेम्बल, रूटिंग और कैस्केडिंग। हम प्रमुख लाभों पर प्रकाश डालते हैं, जिनमें बेहतर विविधता प्रतिनिधित्व, बेहतर आउटपुट गुणवत्ता और बढ़ी हुई अनुप्रयोग लचीलापन शामिल हैं। यह दृष्टिकोण व्यावहारिक कार्यों के लिए मॉडल चयन में सहायता करता है और मल्टीमॉडल LLM में एनसेम्बल रणनीतियों के विस्तार की नींव रखता है।

Takeaways, Limitations

Takeaways:
एलएलएम एनसेम्बल तकनीक विविधता प्रतिनिधित्व को बढ़ाने, आउटपुट गुणवत्ता में सुधार करने और अनुप्रयोग लचीलेपन को बढ़ाने की क्षमता प्रदान करती है।
सात प्रमुख एलएलएम एनसेम्बल विधियों की विशेषताओं, पक्ष और विपक्ष के विश्लेषण के माध्यम से प्रभावी मॉडल चयन मानदंड प्रदान करना।
मल्टीमॉडल एलएलएम तक एनसेम्बल रणनीतियों को विस्तारित करने की संभावना का सुझाव देना।
Limitations:
यह शोधपत्र मौजूदा शोध की समीक्षा पर केंद्रित है और इसमें नई तकनीकों या प्रयोगात्मक परिणामों के प्रस्ताव शामिल नहीं हैं।
प्रत्येक समूह तकनीक के प्रदर्शन की तुलना और विश्लेषण की कमी के परिणामस्वरूप व्यावहारिक अनुप्रयोग के लिए इष्टतम तकनीक का चयन करने में स्पष्ट मार्गदर्शन का अभाव हो सकता है।
मल्टीमॉडल एलएलएम में एनसेम्बल रणनीतियों को विस्तारित करने के लिए विशिष्ट सुझावों का अभाव।
👍