[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

भाषा मॉडल की व्याख्या के लिए क्रॉस-लेयर डिस्क्रीट अवधारणा खोज

Created by
  • Haebom

लेखक

अंकुर गर्ग, ज़ुएमिन यू, हसन सज्जाद, समीरा इब्राहिमी कहौ

रूपरेखा

ट्रांसफॉर्मर परतों में उभरती अवधारणाओं की खोज की चुनौती का समाधान करने के लिए, यह शोधपत्र एक क्रॉस-लेयर VQ-VAE (CLVQ-VAE) ढाँचा प्रस्तावित करता है। अवशिष्ट धारा में सूचना के रैखिक मिश्रण और अतिरेक के कारण, एक बड़े पैमाने के भाषा मॉडल में विशेषताएँ कैसे विकसित होती हैं, यह समझने की कठिनाई को दूर करने के लिए, हम कई परतों में अभ्यावेदन को मैप करने और अतिरेक अवशिष्ट धारा विशेषताओं को संक्षिप्त और व्याख्या योग्य अवधारणा सदिशों में संक्षिप्त करने के लिए वेक्टर क्वांटिज़ेशन का उपयोग करते हैं। विशेष रूप से, हम असतत अव्यक्त स्थान को नियंत्रित करने और कोडबुक विविधता बनाए रखने के लिए शीर्ष-k तापमान-आधारित नमूनाकरण और EMA कोडबुक अद्यतनीकरण को संयोजित करते हैं, और इसे अर्थ संरचना के साथ बेहतर ढंग से संरेखित करने के लिए स्केल्ड-गोलाकार k-मीन्स++ का उपयोग करके कोडबुक को आरंभीकृत करते हैं।

Takeaways, Limitations

Takeaways:
ट्रांसफॉर्मर परतों में उभरती अवधारणाओं की प्रभावी खोज के लिए एक नया ढांचा प्रस्तुत किया गया है।
स्पष्ट विशेषता विकास प्रक्रिया विश्लेषण को सक्षम करने के लिए अवशिष्ट स्ट्रीम में अनावश्यक जानकारी को हटा दें
अवधारणा सदिशों की व्याख्या और विविधता में सुधार करने के लिए सदिश क्वांटीकरण को शीर्ष-K तापमान-आधारित नमूनाकरण, EMA कोडबुक अद्यतन और स्केल्ड-गोलाकार k-मीन्स++ के साथ संयोजित करना।
Limitations:
प्रस्तावित ढांचे के प्रदर्शन का मूल्यांकन करने के लिए कोई विशिष्ट प्रयोगात्मक परिणाम प्रस्तुत नहीं किए गए हैं।
यह केवल कुछ निश्चित आकार के मॉडलों या कुछ विशेष प्रकार के डेटा के लिए ही प्रभावी हो सकता है। सामान्यीकरण प्रदर्शन का सत्यापन आवश्यक है।
स्केल्ड-स्फेरिकल K-मीन्स++ आरंभीकरण विधि की दक्षता और मापनीयता पर आगे विश्लेषण की आवश्यकता है।
👍