दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

फास्ट और सिंप्लेक्स: ट्राइटन में 2-सिंप्लिशियल ध्यान

Created by
  • Haebom

लेखक

और्को रॉय, टिमोथी चाउ, साई सूर्या डुव्वुरी, सिजिया चेन, जिकाओ यू, ज़ियाओडोंग वांग, मंज़िल ज़हीर, रोहन अनिल

रूपरेखा

यह पेपर टोकन दक्षता में सुधार करने के लिए एक नई वास्तुकला प्रस्तुत करता है, इस वास्तविकता को ध्यान में रखते हुए कि बड़े पैमाने पर भाषा मॉडल (एलएलएम) कम्प्यूटेशनल बाधाओं के बजाय डेटा बाधाओं के अधीन हैं। हम एक 2-सरलीकृत ट्रांसफॉर्मर का प्रस्ताव करते हैं, जो पारंपरिक डॉट-प्रोडक्ट ध्यान को एक ट्रिलिनियर फ़ंक्शन में सामान्यीकृत करता है, और प्रयोगात्मक रूप से प्रदर्शित करता है कि यह ट्राइटन कर्नेल का उपयोग करके एक कुशल कार्यान्वयन के माध्यम से मानक ट्रांसफॉर्मर पर बेहतर टोकन दक्षता प्राप्त करता है। विशेष रूप से, हम प्रदर्शित करते हैं कि समान आकार के मॉडल गणित, कोडिंग, तर्क और तर्क-संबंधी कार्यों के लिए एक निश्चित टोकन बजट के तहत डॉट-प्रोडक्ट ध्यान-आधारित मॉडल से बेहतर प्रदर्शन करते हैं, और हम ज्ञान और तर्क कार्यों के लिए स्केलिंग कानून के घातीय परिवर्तन का मात्रात्मक विश्लेषण करते हैं।

____T87200_____, ____T87201_____

Takeaways:
हम टोकन-कुशल एलएलएम आर्किटेक्चर की आवश्यकता पर प्रकाश डालते हैं और प्रस्तावित करते हैं कि 2-सरल समग्र ट्रांसफार्मर इसके लिए एक आशाजनक समाधान है।
हम मौजूदा स्केलिंग कानूनों की सीमाओं को इंगित करते हैं और डेटा-प्रतिबंधित वातावरण में नए स्केलिंग कानूनों के प्रस्ताव की संभावना दर्शाते हैं।
हम प्रयोगात्मक रूप से गणित, कोडिंग, तर्क और तर्क सहित विशिष्ट कार्यों में दो सरल जटिल ट्रांसफॉर्मर्स के बेहतर प्रदर्शन का प्रदर्शन करते हैं।
Limitations:
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या प्रस्तावित वास्तुकला के प्रदर्शन सुधारों को सभी प्रकार के कार्यों के लिए सामान्यीकृत किया जा सकता है।
ट्राइटन कर्नेल पर निर्भर कार्यान्वयन की व्यापकता सीमित हो सकती है क्योंकि वे विशिष्ट हार्डवेयर वातावरण पर निर्भर होते हैं।
यह सत्यापित करने के लिए अतिरिक्त प्रयोगों की आवश्यकता है कि पेपर में प्रस्तुत स्केलिंग कानून में परिवर्तन कितने सामान्य हैं और क्या वे अन्य आर्किटेक्चर पर लागू होते हैं।
👍