दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आरएजी के लिए तकनीकी दस्तावेज़ पुनर्प्राप्ति को बढ़ाना

Created by
  • Haebom

लेखक

सोंगजियांग लाई, त्सुन-हिन चेउंग, का-चुन फंग, काइवेन ज़ू, क्वान-हो लिन, यान-मिंग चोई, विंसेंट एनजी, किन-मैन लैम

रूपरेखा

यह शोधपत्र तकनीकी-एम्बेडिंग प्रस्तुत करता है, जो हार्डवेयर और सॉफ़्टवेयर विकास में तकनीकी दस्तावेज़ों की अर्थगत पुनर्प्राप्ति को अनुकूलित करने हेतु एक नवीन ढाँचा है। यह बड़े पैमाने के भाषा मॉडल (LLM) का लाभ उठाकर जटिल तकनीकी सामग्री को समझने और पुनर्प्राप्त करने की चुनौतियों का समाधान करने पर केंद्रित है। यह उपयोगकर्ता के आशय को बेहतर ढंग से समझने के लिए उपयोगकर्ता क्वेरीज़ का विस्तार करता है और एम्बेडिंग मॉडल की फ़ाइन-ट्यूनिंग प्रक्रिया को समृद्ध बनाने के लिए डेटासेट विविधता को बढ़ाता है। इसके अलावा, यह तकनीकी दस्तावेज़ों में महत्वपूर्ण जानकारी को एन्कोड करने और उनके प्रतिनिधित्व को बेहतर बनाने के लिए सारांश निष्कर्षण तकनीकों का उपयोग करता है। सॉफ्ट प्रॉम्प्टिंग का उपयोग दोहरे-एनकोडर BERT मॉडल को फ़ाइन-ट्यून करने के लिए किया जाता है, और क्वेरी और दस्तावेज़ संदर्भ के लिए अलग-अलग लर्निंग पैरामीटर का उपयोग सूक्ष्म अर्थगत अंतरों को पकड़ने के लिए किया जाता है। दो सार्वजनिक डेटासेट, RAG-EDA और Rust-Docs-QA, पर मूल्यांकन परिणाम दर्शाते हैं कि तकनीकी-एम्बेडिंग सटीकता और रिकॉल दोनों में बेसलाइन मॉडल से काफ़ी बेहतर प्रदर्शन करता है। यह तकनीकी क्षेत्रों में सूचना पहुँच और समझ को बेहतर बनाने के लिए क्वेरी विस्तार और संदर्भगत सारांशीकरण को एकीकृत करने की प्रभावशीलता को प्रदर्शित करता है। यह अध्ययन पुनर्प्राप्ति-संवर्धित पीढ़ी (आरएजी) प्रणाली को आगे बढ़ाता है और इंजीनियरिंग और उत्पाद विकास वर्कफ़्लो में कुशल और सटीक तकनीकी दस्तावेज़ पुनर्प्राप्ति के लिए एक नई विधि प्रस्तुत करता है।

Takeaways, Limitations

Takeaways:
एलएलएम का उपयोग करके तकनीकी दस्तावेज़ पुनर्प्राप्ति को अनुकूलित करने के लिए एक रूपरेखा प्रस्तुत की गई है।
क्वेरी विस्तार और संदर्भ सारांश को शामिल करके खोज प्रदर्शन में सुधार करें।
सॉफ्ट प्रॉम्प्टिंग तकनीकों का उपयोग करके सूक्ष्म अर्थगत अंतरों को ठीक-ठीक करके पकड़ना।
आरएजी प्रणालियों की उन्नति में योगदान दें तथा इंजीनियरिंग और उत्पाद विकास कार्यप्रवाह में संभावित सुधार का सुझाव दें।
RAG-EDA और Rust-Docs-QA डेटासेट पर मौजूदा मॉडलों की तुलना में प्रदर्शन में सुधार का प्रयोगात्मक सत्यापन किया गया।
Limitations:
उपयोग किए जाने वाले डेटासेट सीमित हो सकते हैं (केवल दो डेटासेट उपयोग किए जाते हैं: RAG-EDA और Rust-Docs-QA)।
अन्य प्रकार के तकनीकी दस्तावेजों या अधिक जटिल प्रश्नों के लिए सामान्यीकरण प्रदर्शन के लिए आगे के अध्ययन की आवश्यकता है।
सॉफ्ट प्रॉम्प्टिंग के लिए इष्टतम पैरामीटर सेटिंग्स निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
वास्तविक औद्योगिक वातावरण में अनुप्रयोग के लिए अतिरिक्त प्रयोग और सत्यापन की आवश्यकता होती है।
👍