यह शोधपत्र एक डेटा और मॉडल कम्प्रेशन फ्रेमवर्क (DaMoC) प्रस्तावित करता है जो विशिष्ट डोमेन कार्यों के लिए फाइन-ट्यूनिंग हेतु अनेक ओपन-सोर्स लार्ज-स्केल लैंग्वेज मॉडल्स (LLMs) में से शीघ्रता से इष्टतम मॉडल चुनने की समस्या का समाधान करता है। DaMoC में दो पहलू शामिल हैं: डेटा और मॉडल स्तर। डेटा स्तर पर, हम डेटा फ़िल्टरिंग विधियों को तीन प्रतिमानों में वर्गीकृत करते हैं: वितरण-सचेत, गुणवत्ता-सचेत और हाइब्रिड दृष्टिकोण। हम कुंजी टोकन्स का घनत्व बढ़ाकर टोकन कम्प्रेशन प्राप्त करते हैं, और LLMs का उपयोग करके पाठ को बार-बार पुनर्लेखन करके निरूपण को अनुकूलित करते हैं। मॉडल स्तर पर, हम प्रत्येक परत के महत्व का आकलन करने के लिए पदानुक्रमित समानता स्कोर का उपयोग करते हैं, कम महत्व वाली परतों को छाँटते हैं, और मूल मॉडल की विशेषताओं के संरक्षण को अधिकतम करने के लिए एक विरल विलय प्रतिमान प्रस्तुत करते हैं। चार डेटासेट्स—मेडिकल प्रश्नोत्तर, वित्तीय प्रश्नोत्तर, सामान्य प्रश्नोत्तर, और पठन बोध—पर व्यापक प्रयोगों के माध्यम से, हम प्रदर्शित करते हैं कि इष्टतम LLM का चयन करने से प्रशिक्षण समय लगभग 20 गुना कम हो जाता है।