दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

नोवाग: बड़े भाषा मॉडलों के आकार संरक्षण संपीड़न के लिए एक एकीकृत ढांचा

Created by
  • Haebom

लेखक

लॉरेंस लियू, इनेश चक्रवर्ती, यिक्सियाओ ली, मेंगडी वांग, तुओ झाओ, लिन एफ. यांग

रूपरेखा

संसाधन-सीमित परिवेशों में बड़े पैमाने के भाषा मॉडल (LLM) के परिनियोजन की चुनौतियों का समाधान करने के लिए, यह शोधपत्र NoWag (सामान्यीकृत भार और सक्रियण निर्देशित संपीड़न) का प्रस्ताव करता है, जो शून्य-शॉट आकार-संरक्षण संपीड़न एल्गोरिदम के लिए एक एकीकृत ढाँचा है। NoWag, Llama-2 7B/13B/70B और Llama-3 8B/70B मॉडल को आकार-संरक्षण संपीड़न के दो रूपों का उपयोग करके संपीड़ित करता है: वेक्टर क्वांटिज़ेशन (NoWag-VQ) और असंरचित/अर्ध-संरचित प्रूनिंग (NoWag-P)। प्रायोगिक परिणाम दर्शाते हैं कि NoWag-VQ, अत्याधुनिक शून्य-शॉट वेक्टर क्वांटिज़ेशन विधियों से काफ़ी बेहतर प्रदर्शन करता है, और NoWag-P उनसे प्रतिस्पर्धी है। ये परिणाम भविष्य के शोध के लिए दोनों संपीड़न प्रतिमानों के बीच समानताओं का सुझाव देते हैं। स्रोत कोड GitHub पर उपलब्ध है।

Takeaways, Limitations

Takeaways:
हम NoWag का प्रस्ताव करते हैं, जो शून्य-शॉट आकार-संरक्षण संपीड़न एल्गोरिदम के लिए एक प्रभावी एकीकृत ढांचा है।
नोवाग-वीक्यू मौजूदा अत्याधुनिक शून्य-शॉट वेक्टर क्वांटाइजेशन विधियों से बेहतर प्रदर्शन करता है।
नोवाग-पी मौजूदा अत्याधुनिक छंटाई विधियों के साथ प्रतिस्पर्धी प्रदर्शन प्रदर्शित करता है।
विभिन्न संपीड़न प्रतिमानों, जैसे वेक्टर क्वांटाइजेशन और प्रूनिंग के बीच समानताएं प्रस्तुत करके भविष्य के अनुसंधान दिशाओं का सुझाव देना।
Limitations:
इस पत्र में प्रस्तुत प्रायोगिक परिणाम विशिष्ट एलएलएम मॉडल (लामा-2, लामा-3) के लिए हैं, तथा अन्य मॉडलों के लिए उनकी सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
नोवाग के प्रदर्शन सुधार में योगदान देने वाले कारकों के गहन विश्लेषण का अभाव।
विभिन्न संसाधन-बाधित वातावरणों में NoWag की प्रयोज्यता और प्रदर्शन का आगे मूल्यांकन आवश्यक है।
👍