विशिष्ट कार्यों के लिए उच्च-गुणवत्ता वाले डेटासेट बनाने की चुनौतियों का समाधान करने के लिए, यह शोधपत्र कॉर्पस रिट्रीवल एंड ऑग्मेंटेशन फॉर फाइन-ट्यूनिंग (CRAFT) का प्रस्ताव करता है, जो एक ऐसी विधि है जो उपयोगकर्ता द्वारा उत्पन्न शॉट्स की एक छोटी संख्या के आधार पर सिंथेटिक डेटासेट उत्पन्न करती है। CRAFT प्रासंगिक दस्तावेज़ों को खोजने के लिए एक बड़े पैमाने पर सार्वजनिक वेब क्रॉल कॉर्पस और समानता-आधारित दस्तावेज़ पुनर्प्राप्ति का उपयोग करता है, और उपयोगकर्ता-निर्धारित कार्य नमूनों के साथ प्राप्त दस्तावेज़ों को संवर्धित करने के लिए एक निर्देश-संचालित विशाल भाषा मॉडल (LLM) का लाभ उठाता है। चार विविध कार्यों—जीव विज्ञान, चिकित्सा, सामान्य ज्ञान प्रश्नोत्तर (QA), और सारांशीकरण—पर किए गए प्रयोगों से पता चलता है कि CRAFT कुशलतापूर्वक बड़े, कार्य-विशिष्ट प्रशिक्षण डेटासेट उत्पन्न करता है, QA कार्य पर एक मानक LLM से बेहतर प्रदर्शन करता है या उसके बराबर होता है और सारांशीकरण कार्य पर मौजूदा मानव-संयोजित डेटा पर प्रशिक्षित मॉडलों की तुलना में 46-बिंदु वरीयता सुधार प्राप्त करता है। इसके अलावा, यह अन्य सिंथेटिक डेटासेट निर्माण विधियों, जैसे कि सेल्फ-इंस्ट्रक्ट और इवोल-इंस्ट्रक्ट, से बेहतर प्रदर्शन करता है, और शुरुआती कुछ शॉट्स की गुणवत्ता में भिन्नता होने पर भी मजबूत प्रदर्शन बनाए रखता है।