दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पुनर्प्राप्ति और पुनर्प्राप्ति-संवर्धित पीढ़ी के लिए उपयोगिता-केंद्रित एलएलएम एनोटेशन

Created by
  • Haebom

लेखक

हेनग्रान झांग, मिंगहाओ तांग, केपिंग बी, जियाफेंग गुओ, शिहाओ लियू, डेटिंग शि, दावेई यिन, ज़ुएकी चेंग

रूपरेखा

यह शोधपत्र दस्तावेज़ उपयोगिता को एनोटेट करने और प्रशिक्षण पुनर्प्राप्ति एवं संवर्धित पुनर्प्राप्ति निर्माण (RAG) प्रणालियों में महंगे मैन्युअल एनोटेशन पर निर्भरता कम करने के लिए बड़े पैमाने के भाषा मॉडल (LLM) का लाभ उठाने का अन्वेषण करता है। पुनर्प्राप्ति प्रासंगिकता और उत्पादक उपयोगिता के बीच की खाई को पाटने के लिए, हम दस्तावेज़ उपयोगिता को एनोटेट करने हेतु LLM का उपयोग करते हैं। प्रति क्वेरी कई सकारात्मक नमूनों का प्रभावी ढंग से उपयोग करने के लिए, हम एक नवीन हानि फलन प्रस्तावित करते हैं जो उनकी समग्र सीमांत संभावना को अधिकतम करता है। हम MS MARCO डेटासेट की उपयोगिता को एनोटेट करने के लिए Qwen-2.5-32B मॉडल का उपयोग करते हैं और MS MARCO और BEIR पर पुनर्प्राप्ति प्रयोग, साथ ही MS MARCO QA, NQ, और HotpotQA पर RAG प्रयोग करते हैं। हमारे प्रयोगात्मक परिणाम दर्शाते हैं कि LLM-जनित एनोटेशन, केवल मैन्युअल एनोटेशन या QA मेट्रिक्स के उपसमूहों पर प्रशिक्षित मॉडलों की तुलना में आउट-ऑफ-डोमेन पुनर्प्राप्ति प्रदर्शन और RAG परिणामों में सुधार करते हैं। इसके अलावा, हम एलएलएम एनोटेशन को 20% मैन्युअल एनोटेशन के साथ मिलाकर, पूरी तरह से मैन्युअल एनोटेशन के बराबर प्रदर्शन प्राप्त करते हैं। यह अध्ययन नए कॉर्पोरा पर क्यूए सिस्टम को आरंभ करने के लिए एलएलएम एनोटेशन का लाभ उठाने के लिए एक व्यापक दृष्टिकोण प्रस्तुत करता है।

Takeaways, Limitations

Takeaways:
एलएलएम का उपयोग करके दस्तावेज़ प्रयोज्यता एनोटेशन से मैनुअल एनोटेशन पर निर्भरता कम हो जाती है और लागत प्रभावी क्यूए प्रणालियों के निर्माण में मदद मिलती है।
एलएलएम एनोटेशन आउट-ऑफ-डोमेन खोज प्रदर्शन और आरएजी प्रदर्शन को बेहतर बनाने में योगदान करते हैं।
एलएलएम एनोटेशन के साथ थोड़ी मात्रा में मैनुअल एनोटेशन को संयोजित करके उच्च प्रदर्शन प्राप्त किया जा सकता है।
हम एक नए कॉर्पस के लिए QA प्रणाली को आरंभ करने के लिए एक प्रभावी विधि प्रस्तुत करते हैं।
Limitations:
एलएलएम एनोटेशन की सटीकता और विश्वसनीयता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विशिष्ट एलएलएम और डेटासेट के लिए परिणामों की सामान्यता का सत्यापन आवश्यक है।
विभिन्न प्रकार के प्रश्नों और डेटासेट के साथ आगे और प्रयोग करने की आवश्यकता है।
👍