दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रीज़नरैंक: मज़बूत तर्क क्षमता के साथ पैसेज रैंकिंग को सशक्त बनाना

Created by
  • Haebom

लेखक

वेनहान लियू, ज़िन्यू मा, वेईवेई सन, युताओ झू, युचेन ली, दावेई यिन, झिचेंग डू

रूपरेखा

अनुमान-गहन प्रशिक्षण डेटा की कमी के कारण जटिल रैंकिंग परिदृश्यों में मौजूदा पुनः रैंकिंग मॉडल के खराब प्रदर्शन की समस्या का समाधान करने के लिए, यह पत्र अनुमान-गहन प्रशिक्षण डेटा को स्वचालित रूप से संश्लेषित करने के लिए एक फ्रेमवर्क और इसका उपयोग करते हुए एक नया पुनः रैंकिंग मॉडल, ReasonRank, प्रस्तावित करता है। प्रशिक्षण डेटा संश्लेषण फ्रेमवर्क विभिन्न डोमेन से क्वेरीज़ और पैराग्राफ़ आयात करता है, DeepSeek-R1 का उपयोग करके उच्च-गुणवत्ता वाले प्रशिक्षण लेबल उत्पन्न करता है, और एक स्व-संगत डेटा फ़िल्टरिंग तंत्र के माध्यम से डेटा की गुणवत्ता सुनिश्चित करता है। ReasonRank दो-चरणीय प्रशिक्षण-पश्चात दृष्टिकोण का उपयोग करता है: अनुमान पैटर्न सीखने के लिए एक पर्यवेक्षित फ़ाइन-ट्यूनिंग चरण और रैंकिंग क्षमता में सुधार के लिए एक सुदृढीकरण सीखने का चरण। इसके बहु-परिप्रेक्ष्य रैंकिंग पुरस्कार पारंपरिक रैंकिंग मीट्रिक-आधारित पुरस्कारों की तुलना में अधिक प्रभावी सीखने को सक्षम करते हैं

Takeaways, Limitations

Takeaways:
हम अनुमान-गहन प्रशिक्षण डेटा स्वचालित संश्लेषण ढांचे के माध्यम से बड़े पैमाने पर भाषा मॉडल-आधारित सूचीवार रैंकिंग के प्रदर्शन को बेहतर बनाने में योगदान करते हैं।
हम प्रदर्शित करते हैं कि दो-चरणीय प्रशिक्षण-पश्चात दृष्टिकोण (पर्यवेक्षित फ़ाइन-ट्यूनिंग और सुदृढीकरण अधिगम) प्रभावी रूप से उन्नत अनुमान क्षमता के साथ सूचीवार पुनर्रैंकिंग मॉडल को प्रशिक्षित कर सकता है।
हमने बहु-दृश्य रैंक पुरस्कारों का उपयोग करके सुदृढीकरण सीखने की दक्षता में सुधार किया।
मॉडल की उत्कृष्टता BRIGHT लीडरबोर्ड पर अत्याधुनिक प्रदर्शन प्राप्त करके सिद्ध हुई है।
ReasonRank में मौजूदा Pointwise reranker की तुलना में कम विलंबता है।
Limitations:
डीपसीक-आर1 पर निर्भर डेटा संश्लेषण फ्रेमवर्क का प्रदर्शन अंतिम मॉडल के प्रदर्शन को प्रभावित कर सकता है। यह संभव है कि डीपसीक-आर1 की सीमाएँ रीज़नरैंक के प्रदर्शन को सीमित कर सकती हैं।
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए और अधिक शोध की आवश्यकता है। यह कुछ डोमेन में ओवरफ़िट हो सकता है।
उपयोग किए गए डेटासेट और मूल्यांकन मेट्रिक्स का विस्तृत विवरण उपलब्ध नहीं हो सकता है। पुनरुत्पादन क्षमता में सुधार के लिए अतिरिक्त जानकारी की आवश्यकता हो सकती है।
👍