यह शोधपत्र TAGAL प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) का उपयोग करके सिंथेटिक सारणीबद्ध डेटा उत्पन्न करने की एक नवीन पद्धति है। TAGAL, अतिरिक्त LLM प्रशिक्षण के बिना डेटा की गुणवत्ता में सुधार के लिए एजेंट-आधारित वर्कफ़्लो के माध्यम से एक पुनरावृत्त फ़ीडबैक प्रक्रिया को स्वचालित करता है। LLM, डेटा निर्माण प्रक्रिया में बाह्य ज्ञान के एकीकरण की अनुमति देता है, और हम विभिन्न डेटासेट और गुणवत्ता पहलुओं पर TAGAL के प्रदर्शन का मूल्यांकन करते हैं। हम क्लासिफायर को केवल सिंथेटिक डेटा पर प्रशिक्षित करके या वास्तविक और सिंथेटिक डेटा को मिलाकर डाउनस्ट्रीम ML मॉडल की उपयोगिता का विश्लेषण करते हैं, और वास्तविक और उत्पन्न डेटा के बीच समानता की तुलना करते हैं। परिणामस्वरूप, TAGAL उन अत्याधुनिक तकनीकों के बराबर प्रदर्शन प्रदर्शित करता है जिनके लिए LLM प्रशिक्षण की आवश्यकता होती है और उन तकनीकों से बेहतर प्रदर्शन करता है जिनके लिए प्रशिक्षण की आवश्यकता नहीं होती। यह एजेंट-आधारित वर्कफ़्लो की क्षमता को उजागर करता है और LLM-आधारित डेटा निर्माण के लिए नई दिशाएँ सुझाता है।