यह शोधपत्र बड़े पैमाने के भाषा मॉडल (LLM) द्वारा उत्पन्न एनोटेशन का उपयोग करके पुनर्प्राप्ति मॉडल के प्रशिक्षण का अन्वेषण करता है। पारंपरिक पुनर्प्राप्ति मॉडल प्रशिक्षण और मूल्यांकन के लिए महंगे, मानव-लेबल वाले क्वेरी-दस्तावेज़ प्रासंगिकता एनोटेशन की आवश्यकता होती है। इस अध्ययन का उद्देश्य LLM द्वारा उत्पन्न उपयोगिता-आधारित एनोटेशन का उपयोग करके इस लागत को कम करना है, विशेष रूप से पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) जैसे डाउनस्ट्रीम कार्यों में प्रदर्शन को ध्यान में रखते हुए। हम बड़े डेटासेट के लिए पुनर्प्राप्ति डेटा को एनोटेट करने के लिए LLM उपयोगिता निर्णयों का लाभ उठाते हैं और LLM द्वारा उत्पन्न निम्न-गुणवत्ता वाले सकारात्मक डेटा के प्रभाव को कम करने के लिए एक नया हानि फ़ंक्शन, Disj-InfoNCE, डिज़ाइन करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि उपयोगिता-आधारित एनोटेशन के साथ प्रशिक्षित पुनर्प्राप्ति मॉडल, मौजूदा मानव-एनोटेटेड डेटा के साथ प्रशिक्षित मॉडलों की तुलना में आउट-ऑफ-डोमेन सेटिंग्स में बेहतर सामान्यीकरण प्रदर्शन प्रदर्शित करते हैं। जबकि एलएलएम एनोटेशन अकेले इन-डोमेन सेटिंग्स में मानव एनोटेशन को पूरी तरह से प्रतिस्थापित नहीं कर सकते हैं, मानव-एनोटेटेड डेटा का 20% जोड़ने से एलएलएम-आधारित मॉडल मानव-एनोटेटेड मॉडल के लिए तुलनीय प्रदर्शन प्राप्त करने की अनुमति देता है।