दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डिस्टजॉइन: अनुकूली तंत्रिका विधेय मॉडुलन पर आधारित एक वियुग्मित जॉइन कार्डिनैलिटी अनुमानक

Created by
  • Haebom

लेखक

कैक्सिन झांग, होंगज़ी वांग, ज़िकी ली, याबिन लू, यिंगज़े ली, यू यान, यिमिंग गुआन

रूपरेखा

यह शोधपत्र "सेट आकार अनुमान की त्रिकोणीय दुविधा" (सामान्यता, सटीकता और अद्यतनीयता के बीच का समझौता) को परिभाषित करता है जो अधिगम-आधारित कार्डिनैलिटी अनुमान के व्यावहारिक अनुप्रयोग में बाधा डालती है। इस समस्या का समाधान करने के लिए, हम DistJoin प्रस्तुत करते हैं, जो एक कुशल, वितरण-आधारित जॉइन सेट आकार अनुमानक है जो एक बहु-स्वतःप्रगामी मॉडल का उपयोग करता है। DistJoin अलग-अलग तालिकाओं के प्रायिकता वितरणों को पृथक करके जॉइन सेट आकार का अनुमान लगाता है और दक्षता सुनिश्चित करने के लिए एक उच्च-थ्रूपुट वितरण अनुमान मॉडल, अनुकूली तंत्रिका विधेय मॉडुलन (ANPM) विकसित करता है। हम प्रसरण विश्लेषण के माध्यम से मौजूदा समान दृष्टिकोणों की प्रसरण संचय समस्या का औपचारिक रूप से समाधान करते हैं और चयनात्मकता-आधारित दृष्टिकोण के माध्यम से प्रसरण को प्रभावी ढंग से कम करते हैं। DistJoin सम- और अ-सम-जॉइन दोनों का समर्थन करने वाली पहली डेटा-संचालित विधि है, जो उच्च सटीकता, सुदृढ़ डेटा अद्यतन, सामान्यता, और तेज़, लचीली अद्यतन और अनुमान गति प्रदर्शित करती है। प्रायोगिक परिणाम दर्शाते हैं कि DistJoin, तुलनीय गति प्रदान करते हुए, मौजूदा विधियों की तुलना में उच्चतम सटीकता, मजबूती और व्यापकता प्राप्त करता है।

Takeaways, Limitations

Takeaways:
हम पहली डेटा-संचालित विधि प्रस्तुत करते हैं जो समतुल्य और गैर-समतुल्य दोनों प्रकार के जोड़ों का समर्थन करती है।
मौजूदा तरीकों की तुलना में उच्च सटीकता, मजबूती (डेटा अपडेट के लिए) और सामान्यता प्राप्त होती है।
तेज़ और लचीली अद्यतन और अनुमान गति प्रदान करता है।
हम मौजूदा समान दृष्टिकोणों की वितरित संचय समस्या की पहचान करते हैं और समाधान का प्रस्ताव करते हैं।
Limitations:
एएनपीएम मॉडल की विशिष्ट संरचना और सीखने की प्रक्रिया के विस्तृत विवरण का अभाव।
प्रायोगिक वातावरण और डेटासेट के बारे में विस्तृत जानकारी का अभाव। तुलना की गई विधियों के विस्तृत विवरण का अभाव पुनरुत्पादन सुनिश्चित करना कठिन बनाता है।
वास्तविक बड़े पैमाने पर उत्पादन वातावरण में प्रदर्शन मूल्यांकन का अभाव।
👍