दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

$\Mu$KE: बड़े भाषा मॉडल का मातृयोश्का असंरचित ज्ञान संपादन

Created by
  • Haebom

लेखक

ज़ियान सु, ज़ियांग हुआंग, कैयुआन झांग, ज़ियांगयु झांग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) की चुनौतियों पर विचार करता है, जिन्हें स्थैतिक प्रशिक्षण डेटा की सीमाओं के कारण मतिभ्रम और सुरक्षा जोखिमों जैसी चुनौतियों का सामना करना पड़ता है। जबकि मॉडल के आंतरिक ज्ञान को संशोधित करने वाला लोकेट-एंड-एडिट प्रतिमान, पुनर्प्रशिक्षण का एक लागत-प्रभावी विकल्प साबित हुआ है, वर्तमान असंरचित दृष्टिकोण, विशेष रूप से विंडो-आधारित ऑटोरिग्रैसिव विधियाँ, अक्सर प्रारंभिक मेमोरी अपडेट और बाद के आउटपुट टोकन के बीच कारण-कार्य निर्भरताओं को बाधित करती हैं। यह अध्ययन सैद्धांतिक रूप से इन सीमाओं का विश्लेषण करता है और मैट्रियोश्का असंरचित ज्ञान संपादन ($\Mu$KE) प्रस्तुत करता है, जो एक नवीन मेमोरी अपडेट तंत्र है जो मैट्रियोश्का-शैली के उद्देश्यों और अनुकूली हानि गुणांकों का उपयोग करके इन निर्भरताओं को संरक्षित करता है। दो मॉडलों के लिए चार बेंचमार्क पर किए गए प्रायोगिक मूल्यांकन दर्शाते हैं कि $\mu$KE अत्याधुनिक विधियों की तुलना में संपादन दक्षता में 12.33% तक सुधार करता है और विभिन्न संपादन प्रारूपों में मज़बूत बना रहता है, जो एलएलएम में प्रभावी असंरचित ज्ञान संपादन की क्षमता को उजागर करता है।

Takeaways, Limitations

Takeaways:
मैट्रियोश्का असंरचित ज्ञान संपादन ($\Mu$KE) पारंपरिक असंरचित ज्ञान संपादन विधियों की तुलना में 12.33% अधिक दक्षता दर्शाता है।
यह विभिन्न प्रारूपों में संपादन के लिए भी मजबूत प्रदर्शन बनाए रखता है।
हम एलएलएम में अनौपचारिक ज्ञान को संपादित करने के लिए एक प्रभावी दृष्टिकोण प्रस्तुत करते हैं।
हम एक ऐसी प्रणाली प्रस्तुत करते हैं जो प्रारंभिक मेमोरी अपडेट और बाद के आउटपुट टोकन के बीच कारणात्मक निर्भरता को प्रभावी ढंग से बनाए रखती है।
Limitations:
प्रस्तावित विधि की व्यापकता और मापनीयता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न LLM आर्किटेक्चर और आकारों के लिए $\mu$KE के आगे के प्रदर्शन मूल्यांकन की आवश्यकता है।
वास्तविक दुनिया के वातावरण में प्रयोज्यता और सुरक्षा का और अधिक सत्यापन आवश्यक है।
👍