दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

उपयोगिता-केंद्रित एनोटेशन के लिए एलएलएम का लाभ उठाना: पुनर्प्राप्ति और आरएजी के लिए मैन्युअल प्रयास को कम करना

Created by
  • Haebom

लेखक

हेनग्रान झांग, मिंगहाओ तांग, केपिंग बी, जियाफेंग गुओ, शिहाओ लियू, डेटिंग शि, दावेई यिन, ज़ुएकी चेंग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (LLM) द्वारा उत्पन्न एनोटेशन का उपयोग करके पुनर्प्राप्ति मॉडल के प्रशिक्षण का अन्वेषण करता है। पारंपरिक पुनर्प्राप्ति मॉडल प्रशिक्षण और मूल्यांकन के लिए महंगे, मानव-लेबल वाले क्वेरी-दस्तावेज़ प्रासंगिकता एनोटेशन की आवश्यकता होती है। इस अध्ययन का उद्देश्य LLM द्वारा उत्पन्न उपयोगिता-आधारित एनोटेशन का उपयोग करके इस लागत को कम करना है, विशेष रूप से पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) जैसे डाउनस्ट्रीम कार्यों में प्रदर्शन को ध्यान में रखते हुए। हम बड़े डेटासेट के लिए पुनर्प्राप्ति डेटा को एनोटेट करने के लिए LLM उपयोगिता निर्णयों का लाभ उठाते हैं और LLM द्वारा उत्पन्न निम्न-गुणवत्ता वाले सकारात्मक डेटा के प्रभाव को कम करने के लिए एक नया हानि फ़ंक्शन, Disj-InfoNCE, डिज़ाइन करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि उपयोगिता-आधारित एनोटेशन के साथ प्रशिक्षित पुनर्प्राप्ति मॉडल, मौजूदा मानव-एनोटेटेड डेटा के साथ प्रशिक्षित मॉडलों की तुलना में आउट-ऑफ-डोमेन सेटिंग्स में बेहतर सामान्यीकरण प्रदर्शन प्रदर्शित करते हैं। जबकि एलएलएम एनोटेशन अकेले इन-डोमेन सेटिंग्स में मानव एनोटेशन को पूरी तरह से प्रतिस्थापित नहीं कर सकते हैं, मानव-एनोटेटेड डेटा का 20% जोड़ने से एलएलएम-आधारित मॉडल मानव-एनोटेटेड मॉडल के लिए तुलनीय प्रदर्शन प्राप्त करने की अनुमति देता है।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि एलएलएम-आधारित उपयोगिता एनोटेशन का उपयोग बड़े पैमाने पर पुनर्प्राप्ति मॉडल प्रशिक्षण डेटा को कुशलतापूर्वक उत्पन्न करने के लिए किया जा सकता है।
आउट-ऑफ-डोमेन सेटिंग्स में, एलएलएम-एनोटेटेड मॉडल मानव-एनोटेटेड मॉडल की तुलना में बेहतर सामान्यीकरण प्रदर्शन प्रदर्शित करते हैं।
एलएलएम एनोटेशन के साथ मानव एनोटेशन डेटा की एक छोटी मात्रा को संयोजित करके, मानव एनोटेशन-आधारित मॉडल के समतुल्य प्रदर्शन प्राप्त करना संभव है।
एक नए हानि फ़ंक्शन, डिसज-इन्फोएनसीई के माध्यम से एलएलएम द्वारा उत्पन्न निम्न-गुणवत्ता वाले सकारात्मक डेटा के प्रभाव को प्रभावी ढंग से कम करना।
Limitations:
किसी डोमेन-विशिष्ट सेटिंग में, अकेले एलएलएम एनोटेशन मानव एनोटेशन को पूरी तरह से प्रतिस्थापित नहीं कर सकते।
एलएलएम एनोटेशन की गुणवत्ता नियंत्रण और सुधार के लिए और अधिक शोध की आवश्यकता है।
विभिन्न प्रकार के एलएलएम और डेटासेट पर आगे और प्रयोग करने की आवश्यकता है।
👍