दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

प्रशिक्षण-पश्चात मॉडल विस्तार के साथ क्वांटीकरण में सुधार

Created by
  • Haebom

लेखक

ग्यूसेप फ्रेंको, पाब्लो मोंटेगुडो-लागो, इयान कोलबर्ट, निकोलस फ्रेजर, मिशेला ब्लॉट

रूपरेखा

यह शोधपत्र प्रशिक्षण-पश्चात अनुकूलन के माध्यम से क्वांटाइज्ड मॉडलों के आकार को बढ़ाकर उनके प्रदर्शन को बेहतर बनाने की एक विधि प्रस्तुत करता है। जहाँ मौजूदा क्वांटाइजेशन तकनीकें मॉडल के आकार को कम करने पर केंद्रित हैं, वहीं यह शोधपत्र क्वांटाइजेशन प्रक्रिया के कारण होने वाले प्रदर्शन ह्रास की भरपाई के लिए मॉडल का विस्तार करने की एक रणनीति प्रस्तावित करता है। विशेष रूप से, Llama3 1B मॉडल को 4 बिट्स तक क्वांटाइज करके और मॉडल के आकार को 5% बढ़ाकर, हम QuaRot और SpinQuant की तुलना में पेरप्लेक्सिटी रिडक्शन में औसतन 9% सुधार और BF16 बेसलाइन मॉडल की तुलना में आकार में 3.8% की कमी प्राप्त करते हैं। ये परिणाम प्रदर्शित करते हैं कि क्वांटाइजेशन सह-डिज़ाइन स्पेस में मॉडल के प्रदर्शन को बेहतर बनाने के लिए प्रशिक्षण-पश्चात मॉडल विस्तार एक व्यवहार्य रणनीति है।

Takeaways, Limitations

Takeaways:
हम दर्शाते हैं कि प्रशिक्षण के बाद मॉडल विस्तार, क्वांटाइजेशन के कारण होने वाली प्रदर्शन गिरावट को प्रभावी ढंग से कम कर सकता है।
एलएलएम की क्वांटीकरण प्रक्रिया के दौरान मॉडल आकार को समायोजित करके प्रदर्शन और दक्षता के बीच इष्टतम संतुलन खोजने के लिए एक नया दृष्टिकोण प्रस्तुत किया गया है।
पूर्ण पुनःप्रशिक्षण की आवश्यकता के बिना मॉडल के प्रदर्शन को बेहतर बनाने का एक कुशल तरीका प्रदान करता है।
Limitations:
वर्तमान में, केवल Llama3 1B मॉडल के परिणाम प्रस्तुत किए गए हैं, इसलिए अन्य मॉडलों या क्वांटिज़ेशन बिट गणनाओं के लिए सामान्यीकरण सीमित है।
मॉडल स्केलिंग रणनीतियों को अनुकूलित करने और स्केलिंग के पैमाने को निर्धारित करने के संबंध में विशिष्ट मार्गदर्शन का अभाव है।
मॉडल विस्तार के परिणामस्वरूप अतिरिक्त मेमोरी और कम्प्यूटेशनल लागत के मात्रात्मक विश्लेषण का अभाव।
👍