यह पत्र फ़ाइन-ट्यूनिंग भाषा मॉडल के लिए उच्च-गुणवत्ता वाले प्रशिक्षण डेटा को सुरक्षित करने की चुनौती को संबोधित करता है। विशेष रूप से, हम प्रयोगात्मक रूप से अध्ययन करते हैं कि विभिन्न प्रकार के मॉडल आकारों और प्रकारों में समूह सापेक्ष नीति अनुकूलन (जीआरपीओ) फ़ाइन-ट्यूनिंग का उपयोग करके बजट बाधाओं के तहत विभिन्न कठिनाई स्तरों (आसान, मध्यम, कठिन और यादृच्छिक) के डेटा को कैसे प्राथमिकता दी जाए। आधार मॉडल के बहु-नमूना मूल्यांकन से प्राप्त कठिनाई अनुमानों का उपयोग करते हुए, हम एक ही लेबल रहित डेटा पूल से चयनित चार सबसेट चयन नीतियों की तुलना और विश्लेषण करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि सबसे कठिन उदाहरणों के साथ प्रशिक्षण से 47% तक प्रदर्शन लाभ प्राप्त होता है, जबकि आसान उदाहरणों से सबसे कम प्रदर्शन लाभ होता है। यह संभवतः इस तथ्य के कारण है कि कठिन उदाहरण जीआरपीओ प्रशिक्षण के दौरान अधिक सीखने के अवसर प्रदान करते हैं