यह शोधपत्र दस्तावेज़ उपयोगिता को एनोटेट करने और प्रशिक्षण पुनर्प्राप्ति एवं संवर्धित पुनर्प्राप्ति निर्माण (RAG) प्रणालियों में महंगे मैन्युअल एनोटेशन पर निर्भरता कम करने के लिए बड़े पैमाने के भाषा मॉडल (LLM) का लाभ उठाने का अन्वेषण करता है। पुनर्प्राप्ति प्रासंगिकता और उत्पादक उपयोगिता के बीच की खाई को पाटने के लिए, हम दस्तावेज़ उपयोगिता को एनोटेट करने हेतु LLM का उपयोग करते हैं। प्रति क्वेरी कई सकारात्मक नमूनों का प्रभावी ढंग से उपयोग करने के लिए, हम एक नवीन हानि फलन प्रस्तावित करते हैं जो उनकी समग्र सीमांत संभावना को अधिकतम करता है। हम MS MARCO डेटासेट की उपयोगिता को एनोटेट करने के लिए Qwen-2.5-32B मॉडल का उपयोग करते हैं और MS MARCO और BEIR पर पुनर्प्राप्ति प्रयोग, साथ ही MS MARCO QA, NQ, और HotpotQA पर RAG प्रयोग करते हैं। हमारे प्रयोगात्मक परिणाम दर्शाते हैं कि LLM-जनित एनोटेशन, केवल मैन्युअल एनोटेशन या QA मेट्रिक्स के उपसमूहों पर प्रशिक्षित मॉडलों की तुलना में आउट-ऑफ-डोमेन पुनर्प्राप्ति प्रदर्शन और RAG परिणामों में सुधार करते हैं। इसके अलावा, हम एलएलएम एनोटेशन को 20% मैन्युअल एनोटेशन के साथ मिलाकर, पूरी तरह से मैन्युअल एनोटेशन के बराबर प्रदर्शन प्राप्त करते हैं। यह अध्ययन नए कॉर्पोरा पर क्यूए सिस्टम को आरंभ करने के लिए एलएलएम एनोटेशन का लाभ उठाने के लिए एक व्यापक दृष्टिकोण प्रस्तुत करता है।