दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बीकन: एकीकृत ग्रिड चयन के साथ प्रशिक्षण-पश्चात परिमाणीकरण

Created by
  • Haebom

लेखक

शिहाओ झांग, रेयान साब

रूपरेखा

यह पत्र क्वांटिज़ेशन पर चर्चा करता है, जो पूर्व-प्रशिक्षित बड़े-स्केल मॉडल की मेमोरी और कम्प्यूटेशनल लागत को कम करने के लिए व्यापक रूप से उपयोग की जाने वाली संपीड़न तकनीक है। विशेष रूप से, स्केल किए गए पूर्णांक ग्रिड पर मानों के साथ भार मानों को बदलने के लिए एक उपयुक्त स्केलिंग कारक का चयन करना चैनल-वार पोस्ट-ट्रेनिंग क्वांटिज़ेशन (PTQ) में एक महत्वपूर्ण चुनौती है। मौजूदा विधियाँ आमतौर पर हेयुरिस्टिक ट्यूनिंग या ग्रिड सर्च के माध्यम से पहले से ही स्केल तय कर लेती हैं। इस पत्र में, हम बीकन का प्रस्ताव करते हैं, जो एक सरल और प्रभावी एल्गोरिथ्म है जो मैनुअल ट्यूनिंग की आवश्यकता को समाप्त करता है। बीकन एक अनस्केल्ड ग्रिड का उपयोग करके सीधे चैनल-वार PTQ करता है और स्केलर क्वांटिज़ेशन के ज्यामितीय गुणों का लाभ उठाकर स्वचालित रूप से इष्टतम स्केलिंग कारक निर्धारित करता है।

Takeaways, Limitations

Takeaways:
हम बीकन प्रस्तुत करते हैं, जो एक सरल और प्रभावी एल्गोरिदम है जो प्रति-चैनल पोस्ट-ट्रेनिंग क्वांटिज़ेशन (पीटीक्यू) में मैनुअल ट्यूनिंग के बिना स्वचालित रूप से इष्टतम स्केलिंग कारक निर्धारित करता है।
बैकप्रोपेगेशन या बड़े अंशांकन सेट के बिना अत्याधुनिक विधियों के साथ प्रतिस्पर्धी प्रदर्शन प्राप्त करें।
कुशल मॉडल परिनियोजन के लिए व्यावहारिक समाधान प्रदान करता है।
Limitations:
बीकन एल्गोरिथम के सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए अतिरिक्त प्रयोगों और विश्लेषण की आवश्यकता हो सकती है।
विभिन्न मॉडल आर्किटेक्चर और क्वांटिज़ेशन बिट गणना के लिए आगे के प्रदर्शन मूल्यांकन की आवश्यकता है।
कुछ प्रकार के मॉडलों या कार्यों के लिए यह अन्य अत्याधुनिक विधियों की तुलना में खराब प्रदर्शन कर सकता है।
👍