दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पुनःभारन के साथ सॉफ्टप्लस अटेंशन बड़े भाषा मॉडल में लंबाई एक्सट्रपलेशन को बढ़ाता है

Created by
  • Haebom

लेखक

बो गाओ, माइकल डब्ल्यू. स्प्रैटलिंग

रूपरेखा

यह शोधपत्र लंबी अनुमान टोकन लंबाई पर पारंपरिक सॉफ्टमैक्स ध्यान की संख्यात्मक अस्थिरता और प्रदर्शन में गिरावट को दूर करने के लिए एक नवीन ध्यान तंत्र का प्रस्ताव करता है। हम सॉफ्टमैक्स संक्रिया को एक अरैखिक धनात्मक रूपांतरण और $L_1$-नियमन चरणों में विघटित करते हैं, यह प्रदर्शित करते हुए कि मॉडल प्रदर्शन को बनाए रखने के लिए $l_1$-नियमन आवश्यक है। पहले चरण में, हम एक घातांकीय फलन के बजाय एक संख्यात्मक रूप से स्थिर सॉफ्टप्लस सक्रियण फलन और अपरिवर्तनीय एन्ट्रॉपी पर आधारित एक गतिशील स्केलिंग कारक का परिचय देते हैं, जिससे पारंपरिक सॉफ्टमैक्स ध्यान से बेहतर प्रदर्शन होता है। दूसरे चरण में, हम एक पुनर्भारन तंत्र प्रस्तुत करते हैं जो ध्यान वितरण को तीव्र करता है, महत्वपूर्ण भारों को बढ़ाता है और कमज़ोर भारों को कम करके प्रासंगिक टोकन पर अधिक प्रभावी ढंग से ध्यान केंद्रित करता है। इन दोनों दृष्टिकोणों के संयोजन से संख्यात्मक स्थिरता सुनिश्चित होती है और लंबी संदर्भ निष्कर्षण कार्यों और मानक डाउनस्ट्रीम बेंचमार्क पर उत्कृष्ट परिणाम प्राप्त होते हैं, जबकि प्रशिक्षण अवधि के 16 गुना पर भी लगभग स्थिर सत्यापन हानि बनी रहती है और लंबाई एक्सट्रपलेशन प्रदर्शन में नाटकीय रूप से सुधार होता है।

____T71572_____, ____T71573_____

Takeaways:
सॉफ्टमैक्स ध्यान के दीर्घ-संदर्भ प्रसंस्करण में संख्यात्मक अस्थिरता और खराब प्रदर्शन के लिए एक प्रभावी समाधान प्रस्तुत किया गया है।
सॉफ्ट-प्लस सक्रियण फ़ंक्शन, गतिशील स्केलिंग कारक और पुनर्भार तंत्र के माध्यम से ध्यान तंत्र प्रदर्शन में सुधार।
दीर्घ संदर्भ निष्कर्षण कार्यों और डाउनस्ट्रीम बेंचमार्क पर उत्कृष्ट प्रदर्शन प्राप्त करें।
सीखने की अवधि से 16 गुना अधिक लम्बे संदर्भों में भी स्थिर प्रदर्शन बनाए रखता है।
Limitations:
प्रस्तावित विधि की कम्प्यूटेशनल जटिलता का विश्लेषण अपूर्ण हो सकता है।
विभिन्न प्रकार के दीर्घ संदर्भ डेटासेट पर आगे प्रयोगात्मक परिणामों की आवश्यकता हो सकती है।
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
👍