दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अनुशंसा प्रणालियों के लिए खोज क्वेरी डेटासेट को बढ़ाना और स्केल करना

Created by
  • Haebom

लेखक

आरोन रोड्रिग्स, महमूद हेगज़ी, अज़्ज़ाम नईम

रूपरेखा

यह शोधपत्र एक वास्तविक-विश्व परिचालन प्रणाली प्रस्तुत करता है जिसे डिजिटल वित्तीय क्षेत्र में आशय-आधारित अनुशंसा प्रणालियों हेतु खोज क्वेरी डेटासेट को बढ़ाने और विस्तारित करने के लिए डिज़ाइन किया गया है। उपयोगकर्ता आशय की बढ़ती मात्रा और जटिलता डेटा प्रबंधन में चुनौतियाँ उत्पन्न करती है, जिससे इष्टतम अनुशंसाएँ कठिन हो जाती हैं और उत्पाद ऑनबोर्डिंग में देरी होती है। इन चुनौतियों का समाधान करने के लिए, हम मॉडल-संचालित परिशोधन के बजाय एक स्वचालित, डेटा-संचालित रणनीति पर ध्यान केंद्रित करते हैं। प्रस्तावित प्रणाली में तीन मुख्य मॉड्यूल शामिल हैं: सिंथेटिक क्वेरी जनरेशन, आशय विसंबद्धता, और आशय अंतराल विश्लेषण। सिंथेटिक क्वेरी जनरेशन विविध और यथार्थवादी उपयोगकर्ता क्वेरी उत्पन्न करता है। प्रायोगिक परिणाम सिंथेटिक डेटा के उपयोग के कारण Clinc150 डेटासेट में कोई सांख्यिकीय रूप से महत्वपूर्ण अंतर नहीं दिखाते हैं, लेकिन Banking77 और मालिकाना डेटासेट पर महत्वपूर्ण अंतर देखे गए। इन अंतरों में योगदान करने वाले कारकों का विश्लेषण दर्शाता है कि प्रस्तावित दृष्टिकोण कोल्ड-स्टार्ट समस्या को प्रभावी ढंग से कम करता है। इंटेंट डिसएम्बिग्यूशन मॉड्यूल व्यापक और अतिव्यापी इंटेंट श्रेणियों को सटीक उप-इंटेंट्स में परिष्कृत करता है, जिससे विशेषज्ञ पुनर्मूल्यांकन के लिए 0.863 ± 0.127 का F1 स्कोर प्राप्त होता है, जिससे स्पष्ट विभेदन और अधिक सटीक अनुशंसा मानचित्रण संभव होता है। इंटेंट गैप विश्लेषण, अचिह्नित प्रश्नों से नए इंटेंट निकालकर संभावित ग्राहक आवश्यकताओं की पहचान करता है, जिससे नियंत्रित मूल्यांकनों में 71% तक की रिकवरी दर प्राप्त होती है। वास्तविक बैंकिंग परिवेश में परिनियोजित, यह प्रणाली अनुशंसा सटीकता और परिचालन दक्षता में उल्लेखनीय सुधार करती है, जिससे अंततः बेहतर उपयोगकर्ता अनुभव और रणनीतिक व्यावसायिक लाभ प्राप्त होते हैं। यह अध्ययन आधुनिक AI-आधारित अनुप्रयोगों में उच्च-गुणवत्ता वाले, मापनीय डेटा की भूमिका पर प्रकाश डालता है और मूल्य सृजन के एक प्रमुख चालक के रूप में डेटा संवर्द्धन के लिए एक सक्रिय दृष्टिकोण का प्रस्ताव करता है।

Takeaways, Limitations

Takeaways:
डेटा-संचालित रणनीतियों के माध्यम से आशय-आधारित अनुशंसा प्रणालियों के प्रदर्शन और मापनीयता को बढ़ाना।
सिंथेटिक क्वेरी जेनरेशन के माध्यम से कोल्ड स्टार्ट समस्याओं को कम करना।
ग्राहक की आवश्यकताओं की पहचान करें और आशय स्पष्टीकरण तथा अंतर विश्लेषण के माध्यम से अनुशंसा की सटीकता में सुधार करें।
वास्तविक दुनिया के परिचालन वातावरण में सफल प्रणाली परिनियोजन और प्रदर्शन सत्यापन।
उच्च गुणवत्ता वाले डेटा के महत्व पर जोर दिया गया है और डेटा संवर्द्धन रणनीतियों की आवश्यकता का सुझाव दिया गया है।
Limitations:
सिंथेटिक क्वेरी जेनरेशन का प्रदर्शन विभिन्न डेटासेटों में भिन्न होता है (Clinc150 डेटासेट पर कोई महत्वपूर्ण अंतर नहीं है, लेकिन बैंकिंग77 और प्रोप्राइटरी डेटासेटों पर महत्वपूर्ण अंतर है)।
आशय स्पष्टीकरण और अंतराल विश्लेषण के प्रदर्शन मूल्यांकन की सीमाएँ हैं (विशिष्ट डेटासेट और मूल्यांकन विधियों पर निर्भर)।
मालिकाना डेटासेट के विस्तृत विवरण का अभाव। तुलनात्मक विश्लेषण में प्रयुक्त अन्य डेटासेट से इसके अंतर को स्पष्ट रूप से स्पष्ट करने की आवश्यकता है।
👍