दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एक छलांग ही काफी है: सभी निकास स्तरों पर फिट होने के लिए एक छलांग के साथ शीघ्र निकास पूर्वानुमान के लिए शॉर्ट-कटिंग ट्रांसफॉर्मर

Created by
  • Haebom

लेखक

अमृत दिग्गवी शेषाद्रि

रूपरेखा

इस पत्र में, हम ट्रांसफार्मर के छिपे हुए अभ्यावेदनों को अंतिम अभ्यावेदनों पर मैप करने के लिए एक पैरामीटर-कुशल निम्न-आयामी प्रारंभिक-समाप्ति योजना का प्रस्ताव करते हैं ताकि बड़े पैमाने के भाषा मॉडल के अनुमान समय और गणनात्मक लागत को कम किया जा सके। मौजूदा निम्न-आयामी लघुकरण योजनाएं मॉडल के प्रारंभिक चरण में प्रदर्शन में सुधार दिखाती हैं, लेकिन अनुमान के दौरान प्रत्येक ट्रांसफार्मर मध्यवर्ती ब्लॉक के लिए एक अलग प्रारंभिक-समाप्ति लघुकरण छलांग बनाए रखने की कमी है। इस पत्र में, हम एक एकल वन-जंप-फिट्स-ऑल (OJFA) निम्न-आयामी लघुकरण का चयन करने की एक विधि का प्रस्ताव करते हैं, जो अनुमान के दौरान लघुकरण पैरामीटर लागत को 30 गुना से अधिक कम कर देता है। OJFA कई लघुकरण छलांगों को बनाए रखने वाली योजना के समान प्रदर्शन दिखाता है

Takeaways, Limitations

Takeaways:
एक नवीन निम्न-आयामी प्रारंभिक समापन विधि प्रस्तुत की गई है जो अनुमान समय और गणना लागत को प्रभावी ढंग से कम करती है।
एकल OJFA शॉर्टकट का उपयोग करके पैरामीटर लागत को 30 गुना से अधिक कम करते हुए प्रदर्शन में गिरावट को न्यूनतम करें।
विभिन्न कनवर्टर मॉडलों (GPT2-XL, Phi3-Mini, Llama2-7B) पर स्थिर प्रदर्शन सत्यापित
Limitations:
ओजेएफए पद्धति के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
अन्य प्रकार के बड़े पैमाने के भाषा मॉडलों पर प्रयोज्यता को सत्यापित करने की आवश्यकता
ओजेएफए चयन प्रक्रिया को अनुकूलित और स्वचालित करने के लिए और अधिक शोध की आवश्यकता है।
👍