दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

TAGAL: एजेंटिक LLM विधियों का उपयोग करके सारणीबद्ध डेटा निर्माण

Created by
  • Haebom

लेखक

बेनो इट रोनवाल, पियरे ड्यूपॉन्ट, सिगफ्राइड निजसेन

रूपरेखा

यह शोधपत्र TAGAL प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) का उपयोग करके सिंथेटिक सारणीबद्ध डेटा उत्पन्न करने की एक नवीन पद्धति है। TAGAL, ​​अतिरिक्त LLM प्रशिक्षण के बिना डेटा की गुणवत्ता में सुधार के लिए एजेंट-आधारित वर्कफ़्लो के माध्यम से एक पुनरावृत्त फ़ीडबैक प्रक्रिया को स्वचालित करता है। LLM, डेटा निर्माण प्रक्रिया में बाह्य ज्ञान के एकीकरण की अनुमति देता है, और हम विभिन्न डेटासेट और गुणवत्ता पहलुओं पर TAGAL के प्रदर्शन का मूल्यांकन करते हैं। हम क्लासिफायर को केवल सिंथेटिक डेटा पर प्रशिक्षित करके या वास्तविक और सिंथेटिक डेटा को मिलाकर डाउनस्ट्रीम ML मॉडल की उपयोगिता का विश्लेषण करते हैं, और वास्तविक और उत्पन्न डेटा के बीच समानता की तुलना करते हैं। परिणामस्वरूप, TAGAL उन अत्याधुनिक तकनीकों के बराबर प्रदर्शन प्रदर्शित करता है जिनके लिए LLM प्रशिक्षण की आवश्यकता होती है और उन तकनीकों से बेहतर प्रदर्शन करता है जिनके लिए प्रशिक्षण की आवश्यकता नहीं होती। यह एजेंट-आधारित वर्कफ़्लो की क्षमता को उजागर करता है और LLM-आधारित डेटा निर्माण के लिए नई दिशाएँ सुझाता है।

____T228302_____, ____T228303_____

Takeaways:
हम यह प्रदर्शित करते हैं कि LLM का लाभ उठाने वाला एजेंट-आधारित वर्कफ़्लो अतिरिक्त LLM प्रशिक्षण के बिना उच्च गुणवत्ता वाले सिंथेटिक सारणीबद्ध डेटा उत्पन्न कर सकता है।
हम मौजूदा एलएलएम प्रशिक्षण-आधारित विधियों की तुलना में समकक्ष या बेहतर प्रदर्शन प्राप्त करके इसकी प्रभावशीलता प्रदर्शित करते हैं।
यह बाह्य ज्ञान का लाभ उठाकर डेटा निर्माण प्रक्रिया में सुधार की संभावना का सुझाव देता है।
हम सिंथेटिक डेटा उत्पन्न करने के लिए एक विधि प्रदान करते हैं जो डाउनस्ट्रीम एमएल मॉडल के प्रदर्शन को बेहतर बनाने में योगदान दे सकता है।
Limitations:
इस पत्र में प्रस्तुत TAGAL का प्रदर्शन मूल्यांकन एक विशिष्ट डेटासेट और गुणवत्ता पहलुओं तक सीमित है, और इसकी सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
एलएलएम की प्रकृति के कारण पक्षपातपूर्ण डेटा उत्पन्न होने की संभावना रहती है, तथा इसके समाधान के लिए समाधान की आवश्यकता है।
जटिल डेटा संरचनाओं या विशेष डोमेन पर प्रयोज्यता को आगे के शोध के माध्यम से सत्यापित करने की आवश्यकता है।
👍