दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

GLU ध्यान सुधार ट्रांसफार्मर

Created by
  • Haebom

लेखक

ज़ेहाओ वांग

रूपरेखा

यह पेपर GLU अटेंशन का प्रस्ताव करता है, जो एक नया अटेंशन मैकेनिज्म है जो मौजूदा अटेंशन मैकेनिज्म के प्रदर्शन को बेहतर बनाने के लिए GLU (गेटेड लीनियर यूनिट्स) का उपयोग करता है। GLU अटेंशन मॉडल के प्रदर्शन और अभिसरण गति को बेहतर बनाने के लिए अटेंशन वैल्यू में गैर-रैखिकता लाता है, और अतिरिक्त मापदंडों के बिना इसकी कम्प्यूटेशनल लागत न्यूनतम होती है। यह टेक्स्ट और विज़न मोडैलिटी में प्रभावी साबित हुआ है, और फ्लैश अटेंशन, RoPE और GQA जैसी अन्य तकनीकों के साथ एकीकृत करना भी आसान है। इसे GitHub पर ओपन सोर्स के रूप में जारी किया गया है।

Takeaways, Limitations

Takeaways:
अतिरिक्त मापदंडों के बिना ध्यान तंत्र के बेहतर प्रदर्शन और अभिसरण गति।
पाठ्य एवं दृश्य दोनों रूपों में प्रभावी।
अन्य प्रौद्योगिकियों के साथ आसान एकीकरण के कारण उच्च प्रयोज्यता।
खुले स्रोत प्रकटीकरण के माध्यम से पहुंच में सुधार करना।
Limitations:
प्रस्तुत प्रयोगात्मक परिणामों की सामान्यता के आगे सत्यापन की आवश्यकता है।
विभिन्न नेटवर्क संरचनाओं और डेटासेटों पर अतिरिक्त प्रयोगों की आवश्यकता है।
GLU अटेंशन का प्रदर्शन सुधार कुछ शर्तों तक सीमित हो सकता है।
👍