यह शोधपत्र एक संश्लेषित दीर्घ-पाठ संदर्भ डेटा निर्माण ढाँचे का प्रस्ताव करता है जो बड़े पैमाने के भाषा मॉडल (एलएलएम) की दीर्घ-पाठ इनपुट को संसाधित करने और अनुमान लगाने की क्षमता को बढ़ाता है। उच्च-गुणवत्ता, विविध और सत्यापन योग्य दीर्घ-पाठ संदर्भ डेटासेट की कमी को दूर करने के लिए, हम प्रॉम्प्ट-आधारित एलएलएम इंटरैक्शन के माध्यम से डेटा निर्माण हेतु एक मॉड्यूलर और विस्तारणीय ढाँचा प्रस्तुत करते हैं। यह ढाँचा विभिन्न शिक्षण और संरेखण उद्देश्यों (एसएफटी, डीपीओ, और जीआरपीओ) का समर्थन करता है और चार डेटा निर्माण प्रतिमानों को शामिल करता है: बहु-दौर वार्तालाप, दस्तावेज़-आधारित इनपुट-आउटपुट युग्म, सत्यापन योग्य कमांड-प्रतिक्रिया कार्य, और दीर्घ-पाठ अनुमान उदाहरण। टेम्पलेट-आधारित प्रॉम्प्टिंग, एक मॉडल-स्वतंत्र आर्किटेक्चर, और मेटाडेटा-समृद्ध आउटपुट, स्केलेबल, नियंत्रणीय और उद्देश्य-विशिष्ट डेटासेट के निर्माण को सुगम बनाते हैं।