संसाधन-सीमित परिवेशों में बड़े पैमाने के भाषा मॉडल (LLM) के परिनियोजन की चुनौतियों का समाधान करने के लिए, यह शोधपत्र NoWag (सामान्यीकृत भार और सक्रियण निर्देशित संपीड़न), एक एकीकृत वन-शॉट आकार-संरक्षण संपीड़न एल्गोरिथम ढाँचा, प्रस्तावित करता है। NoWag, दो आकार-संरक्षण तकनीकों: वेक्टर क्वांटिज़ेशन (NoWag-VQ) और असंरचित/अर्ध-संरचित प्रूनिंग (NoWag-P) का उपयोग करके Llama-2 (7B, 13B, 70B) और Llama-3 (8B, 70B) मॉडलों को संपीड़ित करता है। प्रायोगिक परिणाम दर्शाते हैं कि NoWag-VQ, अत्याधुनिक वन-शॉट वेक्टर क्वांटिज़ेशन विधियों से काफ़ी बेहतर प्रदर्शन करता है, और NoWag-P, अग्रणी प्रूनिंग तकनीकों के साथ प्रतिस्पर्धात्मक है। यह दोनों संपीड़न प्रतिमानों के बीच समानताओं को उजागर करता है और भविष्य के अनुसंधान के लिए आशाजनक दिशाएँ सुझाता है। स्रोत कोड GitHub पर उपलब्ध है।