दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

TabSketchFM: डेटा झीलों पर डेटा खोज के लिए स्केच-आधारित सारणीबद्ध प्रतिनिधित्व सीखना

Created by
  • Haebom

लेखक

आमोद खातीवाड़ा, हर्षा कोकेल, इब्राहिम अब्देलअज़ीज़, सुभाजीत चौधरी, जूलियन डॉल्बी, ओकटी हसनज़ादेह, ज़ेनहान हुआंग, तेजस्विनी पेडापति, होर्स्ट सैमुलोविट्ज़, कविता श्रीनिवास

रूपरेखा

यह शोधपत्र TabSketchFM, एक न्यूरल नेटवर्क-आधारित तालिका मॉडल, प्रस्तुत करता है, जो उद्यमों की अपने डेटा लेक में संबंधित तालिकाओं (ऐसी तालिकाएँ जो संघनीय, जुड़ने योग्य या एक-दूसरे के उपसमूह हैं) की पहचान करने की बढ़ती ज़रूरत को पूरा करता है। TabSketchFM एक स्केच-आधारित पूर्व-प्रशिक्षण विधि के माध्यम से न्यूरल तालिका मॉडलों की डेटा खोज दक्षता में सुधार करता है और संघनीय, जुड़ने योग्य और उपसमूह तालिका युग्मों की पहचान करने के लिए पूर्व-प्रशिक्षित मॉडल को परिष्कृत करता है। यह मौजूदा न्यूरल तालिका मॉडलों की तुलना में महत्वपूर्ण प्रदर्शन सुधार प्रदर्शित करता है और विस्तृत पृथक्करण अध्ययनों के माध्यम से प्रत्येक कार्य के लिए महत्वपूर्ण रेखाचित्रों को उजागर करता है। इसके अलावा, परिष्कृत मॉडल का उपयोग तालिका खोज (डेटा पूल में अन्य तालिकाओं को खोजने का कार्य जो संघनीय, जुड़ने योग्य या एक क्वेरी तालिका के उपसमूह हैं) करने के लिए किया जाता है, जो अत्याधुनिक तकनीकों की तुलना में F1 स्कोर में महत्वपूर्ण सुधार प्रदर्शित करता है। अंत में, हम विविध डेटासेट और कार्यों में महत्वपूर्ण स्थानांतरण अधिगम प्रदर्शन का प्रदर्शन करके मॉडल की सामान्यीकरण क्षमता को प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि स्केच-आधारित पूर्व-प्रशिक्षण तंत्रिका नेटवर्क सारणीबद्ध मॉडल के डेटा खोज प्रदर्शन में सुधार कर सकता है।
हमने यूनियनेबल, जॉइनेबल, सबसेट टेबल पेयर आइडेंटिफिकेशन और टेबल लुकअप ऑपरेशन में मौजूदा तरीकों की तुलना में प्रदर्शन में सुधार हासिल किया।
हमने विविध डेटासेट और कार्यों में उत्कृष्ट स्थानांतरण अधिगम प्रदर्शन के माध्यम से मॉडल की सामान्यीकरण क्षमता का प्रदर्शन किया।
एब्लेशन अध्ययन स्पष्ट रूप से उन रेखाचित्रों को प्रस्तुत करते हैं जो प्रत्येक कार्य के लिए महत्वपूर्ण हैं।
Limitations:
इस पत्र में प्रस्तुत स्केच-आधारित पूर्व-प्रशिक्षण पद्धति की सामान्यता निर्धारित करने के लिए और अधिक शोध की आवश्यकता है। यह कुछ डेटासेट या कार्यों को ओवरफिट कर सकता है।
वास्तविक दुनिया के बड़े पैमाने के डेटा लेक वातावरण में प्रदर्शन और मापनीयता के मूल्यांकन का अभाव है।
विभिन्न प्रकार के डेटा (जैसे, असंरचित डेटा) पर इसकी प्रयोज्यता का पता लगाने के लिए आगे अनुसंधान की आवश्यकता है।
👍