दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विश्लेषणात्मक उपस्थान रूटिंग: बड़े भाषा मॉडल के निरंतर सीखने में पुनरावर्ती न्यूनतम वर्ग कैसे काम करता है

Created by
  • Haebom

लेखक

काई टोंग, कांग पैन, जिओ झांग, एर्ली मेंग, रन हे, यावेन कुई, नुओयान गुओ, हुइपिंग ज़ुआंग

रूपरेखा

इस पत्र में, हम बड़े पैमाने के भाषा मॉडलों (एलएलएम) की सतत अधिगम (सीएल) समस्या को हल करने के लिए एक विश्लेषणात्मक उप-स्थान रूटिंग (एएसआर) तकनीक का प्रस्ताव करते हैं। मौजूदा सतत अधिगम तकनीकों में पिछले डेटा का पुन: उपयोग करने, अतिरिक्त गणना लागत वहन करने, या एकल-पैरामीटर दक्षता मॉड्यूल का उपयोग करने की समस्या है, जो नए ज्ञान के अवशोषण को सीमित करता है। एएसआर प्रत्येक कार्य के लिए डीप लेयर फ़ीचर्स के उप-स्थान के भीतर अधिगम को अलग करता है, जिससे कार्यों के बीच ज्ञान का हस्तक्षेप समाप्त हो जाता है। इसके अलावा, यह एक विश्लेषणात्मक रूटिंग तंत्र के माध्यम से विभिन्न उप-स्थानों में सीखे गए ज्ञान का कुशलतापूर्वक उपयोग करता है। यह पुनरावर्ती न्यूनतम वर्ग विधि का उपयोग करके एक बहु-कार्य राउटर मॉडल सीखता है, जिससे राउटर पिछले डेटा तक पहुँच के बिना आने वाले डेटा के साथ गतिशील रूप से अनुकूलित हो सकता है, वर्तमान कार्य को एक उपयुक्त उप-स्थान में असाइन कर सकता है, और पहले से सीखे गए कार्यों के लिए गैर-विस्मृति गुण की गारंटी देता है। प्रायोगिक परिणाम दर्शाते हैं कि एएसआर पिछले ज्ञान को लगभग पूरी तरह से बनाए रखते हुए नई जानकारी को निर्बाध रूप से एकीकृत करके मौजूदा विधियों की सीमाओं को प्रभावी ढंग से दूर करता है।

Takeaways, Limitations

Takeaways:
एलएलएम की निरंतर सीखने की समस्या का एक प्रभावी समाधान प्रस्तुत करना: बढ़ती कम्प्यूटेशनल लागत और मौजूदा तरीकों के ज्ञान हस्तक्षेप की समस्याओं को हल करना।
विश्लेषणात्मक उपस्पेस रूटिंग (एएसआर) तकनीक की श्रेष्ठता को प्रमाणित करना: पूर्व ज्ञान के लगभग पूर्ण अवधारण और नई जानकारी के सुचारू एकीकरण का प्रयोगात्मक प्रदर्शन करना।
बहु-कार्य राउटर मॉडल का कुशल उपयोग: पिछले डेटा तक पहुंच के बिना गतिशील रूप से अनुकूलन करना और गैर-भूलने वाले गुणों को सुनिश्चित करना।
Limitations:
कोड जारी करने का समय: पेपर स्वीकृति के बाद: तत्काल पुनरुत्पादन सत्यापन की सीमाएँ हैं।
विशिष्ट कार्यों के लिए उप-स्थान आवंटन रणनीति के विस्तृत विवरण का अभाव: यह निर्धारित करने के लिए अतिरिक्त विश्लेषण की आवश्यकता हो सकती है कि कौन से पहलू ASR के प्रदर्शन को प्रभावित कर सकते हैं।
विभिन्न एलएलएम आर्किटेक्चर और कार्यों के लिए सामान्यीकरण को सत्यापित करने की आवश्यकता है: सीमित वातावरण में प्रयोगात्मक परिणाम अन्य वातावरण में प्रदर्शन की गारंटी नहीं देते हैं।
👍