संसाधन-सीमित परिवेशों में बड़े पैमाने के भाषा मॉडल (LLM) के परिनियोजन की चुनौतियों का समाधान करने के लिए, यह शोधपत्र NoWag (सामान्यीकृत भार और सक्रियण निर्देशित संपीड़न) का प्रस्ताव करता है, जो शून्य-शॉट आकार-संरक्षण संपीड़न एल्गोरिदम के लिए एक एकीकृत ढाँचा है। NoWag, Llama-2 7B/13B/70B और Llama-3 8B/70B मॉडल को आकार-संरक्षण संपीड़न के दो रूपों का उपयोग करके संपीड़ित करता है: वेक्टर क्वांटिज़ेशन (NoWag-VQ) और असंरचित/अर्ध-संरचित प्रूनिंग (NoWag-P)। प्रायोगिक परिणाम दर्शाते हैं कि NoWag-VQ, अत्याधुनिक शून्य-शॉट वेक्टर क्वांटिज़ेशन विधियों से काफ़ी बेहतर प्रदर्शन करता है, और NoWag-P उनसे प्रतिस्पर्धी है। ये परिणाम भविष्य के शोध के लिए दोनों संपीड़न प्रतिमानों के बीच समानताओं का सुझाव देते हैं। स्रोत कोड GitHub पर उपलब्ध है।